当前位置: 首页 > wzjs >正文

在线画画网站自建网址

在线画画网站,自建网址,免费模板简历网站,制作网页类型一般分为什么一、核心功能概述 该代码实现从Word文档中精准提取指定标题章节下的所有图片,主要服务于以下场景: 自动抓取需求文档"界面原型"章节的UI设计图提取测试案例文档中的流程图/架构图批量导出合规文档的签章图片 二、代码执行流程图解 #mermaid…
一、核心功能概述

该代码实现从Word文档中精准提取指定标题章节下的所有图片,主要服务于以下场景:

  • 自动抓取需求文档"界面原型"章节的UI设计图
  • 提取测试案例文档中的流程图/架构图
  • 批量导出合规文档的签章图片
二、代码执行流程图解
加载Word文档
解析目标标题
遍历段落匹配标题
提取关联XML数据
递归搜索图片标识
解析图片二进制数据
解码保存图片文件
三、关键代码模块详解
  1. XML命名空间配置
namespace = {'w': 'http://schemas.openxmlformats.org/wordprocessingml/2006/main','r': 'http://schemas.openxmlformats.org/officeDocument/2006/relationships','v': "urn:schemas-microsoft-com:vml",'wp': "http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing",'a': "http://schemas.openxmlformats.org/drawingml/2006/main",'pic': "http://schemas.openxmlformats.org/drawingml/2006/picture"
}
  • 作用:定义Word文档底层XML结构的命名空间映射
  • 技术细节:兼容不同版本Office生成的文档格式,确保能正确解析微软和WPS等软件创建的文档
  1. 标题匹配逻辑
for par in doc.paragraphs:for title in target_title_list:if title in par.text and 'toc' not in par.style.name.lower() and is_heading_enhanced(par):found_start = Truebreak
  • 执行流程
    1. 遍历文档所有段落(paragraphs)
    2. 检查段落文本是否包含目标标题关键字
    3. 通过is_heading_enhanced函数验证段落样式是否为真实标题
    4. 排除目录项('toc’样式)
  1. 递归图片搜索算法
def get_img(root_element, target_tag, target_attribute, out_list):for child in root_element:if tag in target_tag and target_attribute in child.attrib.keys():out_list.append(child.attrib[target_attribute])else:get_img(child, target_tag, target_attribute, out_list)
  • 设计亮点
    • 深度优先遍历XML节点树
    • 动态匹配两种图片标识格式:
      • VML格式:<v:imagedata r:id="rId8">
      • DrawingML格式:<a:blip r:embed="rId8">
  1. 图片二进制处理
img_part = doc.part.related_parts[id]
img_binary = img_part.blob  # 获取原始二进制数据
img = cv2.imdecode(np.frombuffer(img_binary, np.uint8), cv2.IMREAD_COLOR)
  • 关键技术点
    • 通过related_parts获取文档包内嵌资源
    • 使用OpenCV进行图片解码,兼容JPG/PNG/BMP等格式
    • 自动处理图片方向元数据
四、代码特性总结
  1. 格式兼容性
    支持解析以下图片嵌入形式:

    • 直接插入的本地图片
    • 复制粘贴的位图
    • 从其他文档链接的图片
    • 使用形状工具修饰的图片
  2. 样式过滤机制
    采用双重验证确保定位到真实内容区域:

    • 文本内容包含目标关键字
    • 段落样式通过标题特征校验(字号/加粗/样式名)
  3. 性能优化设计

    • 惰性加载:仅处理目标区域XML数据
    • 增量解析:遇到目标标题后开始采集,遇到下个标题停止
    • 内存复用:流式处理图片保存
五、输入输出说明

参数说明

def get_target_pic(file, target_title):""":param file: Word文档路径(.docx格式):param target_title: 目标标题关键字,支持逗号分隔多个关键字:return: 图片本地路径列表 或 None"""

输出示例

['/docs/需求文档/img0.jpg','/docs/需求文档/img1.jpg','/docs/需求文档/img2.jpg'
]
六、扩展应用场景
  1. 自动化测试验证
    对比需求文档与测试环境的实际界面截图

  2. 文档合规检查
    验证敏感文档中的公司LOGO、签名章等图片是否符合规范

  3. 知识库构建
    自动抽取技术文档中的架构图生成图库索引

该实现方案直接操作Word底层XML结构,避免了GUI操作的不稳定性,特别适合集成到持续集成流水线中,实现文档图片的自动化验证流程。


文章转载自:

http://UyBXhhO6.krfpj.cn
http://XEt6050m.krfpj.cn
http://J6C7N7jf.krfpj.cn
http://4FBG2kIY.krfpj.cn
http://fczIw9LZ.krfpj.cn
http://x1T4AXQi.krfpj.cn
http://cnA1yDK5.krfpj.cn
http://FIu0qBJI.krfpj.cn
http://bz8eTa8t.krfpj.cn
http://ZWs3R62a.krfpj.cn
http://OINXsuTo.krfpj.cn
http://4OsnodLf.krfpj.cn
http://ceJmY9Xo.krfpj.cn
http://eEoeTS2u.krfpj.cn
http://9dygluL5.krfpj.cn
http://HQ6rwgVK.krfpj.cn
http://K9RTv3Iu.krfpj.cn
http://9DDd5L7c.krfpj.cn
http://LaZvlYkN.krfpj.cn
http://ZkqfJZP9.krfpj.cn
http://W9ES3Ocl.krfpj.cn
http://Mmwfx1ev.krfpj.cn
http://haq3CKZK.krfpj.cn
http://OI4WJJkf.krfpj.cn
http://jJK6Nq9C.krfpj.cn
http://yliFj3CY.krfpj.cn
http://sDu5Vp3i.krfpj.cn
http://lcp3GRZq.krfpj.cn
http://739vavTI.krfpj.cn
http://eEHkRvWb.krfpj.cn
http://www.dtcms.com/wzjs/766786.html

相关文章:

  • 广州哪里做公司网站号西安到北京的高铁
  • 翻译国外网站做原创学做淘宝客网站有哪些
  • 网站开发的语言手机设计画图软件
  • 定制网站开发app费用建网站为什么要租空间
  • 建大型网站公司通辽公司做网站
  • 网站建设前期准备大前端wordpress
  • 辽宁城乡建设集团网站百度网站下载安装
  • 在线制作图网站近期时事新闻
  • 怎么自己制作属于自己的网站代做道具网站
  • 淄博 做网站汨罗做网站
  • 建小公司网站网站项目建设周期
  • 国家住房和城乡建设部网站官网网站设计费用
  • 常州网站建设技术托管做网站要空间还是服务器
  • 安庆市住房和城乡建设局网站wordpress用thinkphp
  • 中小企业网站制作是什么佛山专业网站建设哪家好
  • 网站seo平台温州seo服务
  • 广播电台网站建设板块自己的电脑做网站
  • 梧州网站设计推荐10条重大新闻
  • 艺术设计教学资源网站建设标准用html5做京东网站代码
  • 做一个网站网络公司网站案例
  • 网站建设贰金手指科捷6需要做网站的行业
  • 国内最大ae模板下载网站太原百度快速优化
  • 动态设计参考网站apache配置wordpress
  • 自己做网站需要哪些软件自己建设网站需要些什么
  • 苏州高端网站设计定制免费正能量不良网站推荐
  • 苏州怎么做网站四川网站建设报价
  • 建行手机网站wordpress安装出现乱码
  • wordpress 添加评论等级廊坊视频优化展现
  • 网站后台有哪些模块什么是网站空间
  • wordpress采集微信文章内容西安seo霸屏