当前位置: 首页 > news >正文

成都微网站开发微信怎么搞小程序

成都微网站开发,微信怎么搞小程序,wordpress 文件不刷新,外贸营销模板多模态文档解析思路小记 作者:Arlene 原文:https://zhuanlan.zhihu.com/p/1905635679293122466 多模态文档解析内容涉及:文本、表格和图片 解析思路v1 基于mineru框架对pdf文件进行初解析 其具备较完整的布局识别和内容识别,并将…

多模态文档解析思路小记

作者:Arlene

原文:https://zhuanlan.zhihu.com/p/1905635679293122466

多模态文档解析内容涉及:文本、表格和图片

解析思路v1

  • 基于mineru框架对pdf文件进行初解析

图片

其具备较完整的布局识别和内容识别,并将识别的结果编辑为markdown格式。

  • 针对使用场景如合同审核进行二次处理

图片

合同审核场景对合同内容的准确性和完整性要求较高,故将解析出的discarded_blocks内容进行复原,重构md文件。

  • 多模态内容理解

使用vlm对合同的图像和表格图像进行整体内容分析。经测试,至少qwen 2.5 vl -7b以上的模型方可实现较为准确的内容描述。

v1版问题及解决方案:

  1. 出现整行内容识别遗漏。(解决:将magic-pdf版本更新至3.11版本,一定程度上解决了现在的问题)

  2. discared_blocks中可能包含一些识别准确率较低的内容。(解决:通过score设置阈值&判断文本字数筛选)

  3. 表格截取不全

参考

  • mineru项目地址:GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。

  • 图片

http://www.dtcms.com/a/567564.html

相关文章:

  • dede笑话网站源码企业网站建设要多久
  • 网站建设方法冫金手指排名26知名网站建设多少钱
  • 北京上云网站建设公司杭州百度推广电话
  • 58同城推广网站怎么做阿里云做外贸网站
  • php可以做网站app吗2023最新15件重大新闻
  • 深圳企业建站模板汕头八景
  • 教育网站模块建设互联网外包公司
  • 网站建设初期顺德新网站建设
  • 江苏手机网站建设网络推广的基本手段
  • 天汇大厦网站建设公司房屋设计装修软件免费
  • 做网站用的笔记本配置钟表商城网站建设方案
  • 快手直播间挂人气自助网站哪里有网站做爰视频
  • 烟台网站建设维护重庆网站建设 公司
  • 北京网站定制报价潍坊seo网站推广
  • 域名禁止网站相关服务器可以备案别人的域名吗
  • 网站建设企业最新报价微信网页手机登录入口
  • 虚拟主机网站淘客网站建设商洛做网站多少钱
  • 网站短信通知wordpress js写法
  • 查询数据的网站怎么做kuler 网站
  • 做网站导航cms电影项目做产品众筹哪个网站好
  • 企业网站优化暴肃湖南岚鸿很好装修网站cms
  • wordpress 积分集成seo排名优化是什么
  • 正能量网站入口免费安全产品外贸营销推广方案
  • 在网站后台为什么不显示百分号自己制作小程序怎么做
  • 福州网站怎么做seo音乐网站设计源码
  • 织梦 网站公告企业文化展厅设计
  • 建设银行积分兑换商城官方网站gwt 网站开发
  • 专业网站定制 北京湖南省郴州市邮编
  • 网站个人中心模板免备案虚拟主机哪家好
  • 医院网站建设企业网站开发的具体流程