当前位置: 首页 > wzjs >正文

做芯片代理哪个网站推广万能浏览器

做芯片代理哪个网站推广,万能浏览器,设计logo怎么收费,wordpress设置QQ邮箱多模态文档解析思路小记 作者:Arlene 原文:https://zhuanlan.zhihu.com/p/1905635679293122466 多模态文档解析内容涉及:文本、表格和图片 解析思路v1 基于mineru框架对pdf文件进行初解析 其具备较完整的布局识别和内容识别,并将…

多模态文档解析思路小记

作者:Arlene

原文:https://zhuanlan.zhihu.com/p/1905635679293122466

多模态文档解析内容涉及:文本、表格和图片

解析思路v1

  • 基于mineru框架对pdf文件进行初解析

图片

其具备较完整的布局识别和内容识别,并将识别的结果编辑为markdown格式。

  • 针对使用场景如合同审核进行二次处理

图片

合同审核场景对合同内容的准确性和完整性要求较高,故将解析出的discarded_blocks内容进行复原,重构md文件。

  • 多模态内容理解

使用vlm对合同的图像和表格图像进行整体内容分析。经测试,至少qwen 2.5 vl -7b以上的模型方可实现较为准确的内容描述。

v1版问题及解决方案:

  1. 出现整行内容识别遗漏。(解决:将magic-pdf版本更新至3.11版本,一定程度上解决了现在的问题)

  2. discared_blocks中可能包含一些识别准确率较低的内容。(解决:通过score设置阈值&判断文本字数筛选)

  3. 表格截取不全

参考

  • mineru项目地址:GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

  • 图片

http://www.dtcms.com/wzjs/153265.html

相关文章:

  • 中山市网站建设 中企动力免费做网站
  • 微信建设网站购买链接平台
  • 微信app网站拼多多标题关键词优化方法
  • wordpress产品网站seo专员很难吗
  • wordpress取消httpsseo站长常用工具
  • 白云区网站开发公司电话电商运营主要负责什么
  • 建筑招聘最好的网站seo软件全套
  • 网站加背景音乐国内最新新闻大事
  • 教育局网站建设网站seo优化心得
  • 天津网站建设zmweb高端营销型网站制作
  • 代做课件的网站网站推广及seo方案
  • 开公司如何做网站推广百度客服人工服务
  • 广告设计网址神马快速排名优化工具
  • 入驻天猫店需要什么条件天津企业seo
  • 上海网站设计公司网络营销网站推广
  • 做网站的windowlcd纯手工seo公司
  • 网站建设款属不属于无形资产搜索网站关键词
  • 做内部网站cms手机优化助手
  • 个人网站备案 资料长沙网站优化推广
  • 昆山建站公司爱站网关键词查询网站
  • 网站建设后期服务关键词优化推广排名软件
  • 哪里做网站seo免费推广网站2023mmm
  • 桐庐住房和城乡建设局网站网页优化seo广州
  • 网站太花哨台州seo排名公司
  • 天津公司网站怎样制作百度seo排名优化软件
  • 做网站需要知道的问题互联网优化是什么意思
  • jsp做视频网站专业的google推广公司
  • 中国风 网站模板nba哈登最新消息
  • 长春火车站最新消息建设网站制作公司
  • 网站后台更新怎么做seo教程下载