[Python] 使用 Python 提取 PPT 中不同 Shape 类型文本的技巧与性能权衡
在用python进行自动化文档处理时,比如实现文件翻译,PowerPoint(.pptx) 是常见的目标格式之一。使用 Python 操作 PPT 通常会借助 python-pptx 这个强大的库。本文将聚焦如何提取不同 shape 类型中的文本内容,并探讨保留格式的做法及其带来的性能影响。
📌 一、基础:PowerPoint 中的 Shape 类型分类
在 PowerPoint 中,每个页面(Slide)包含若干个 Shape(形状),常见类型包括:
-
TextBox(文本框):自由插入的文本区域;
-
A