当前位置: 首页 > news >正文

建设银行大连市分行网站网站建设公司浙江华企

建设银行大连市分行网站,网站建设公司浙江华企,wordpress误修改,泉州网站建设哪里优惠在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。 #一、 olmOCR是使用VLM进行的端到端的PDF文档解析 二、document-anchoring 与上述的不同在于,olmOCR使用…

在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。

#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
在这里插入图片描述

二、document-anchoring

与上述的不同在于,olmOCR使用了document-anchoring,文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字,使用pyPDF库进行解析。
在这里插入图片描述
通过在提示词里加入这些文字位置、图像位置、元数据等信息,VLM的幻觉大大减少。
加上位置信息,VLM应该能够定位到具体区域,然后专注于这部分的解析。
仅用页面图像进行提示容易出现未完成的句子,或者在图像数据模糊时产生不忠实的输出。

三、模型微调

数据集:构建了olmOCR-mix-0225数据集
训练:在Qwen2-VL-7B-Instruct上微调
评估:
1.与教师模型GPT-4o计算对齐得分,具体是文档相似性度量,该度量将文档拆分为单词,使用Hirschberg算法对这些单词进行对齐,并计算匹配的比例
2.人类评估:ELO分数
3.下游任务评估

项目:https://github.com/allenai/olmocr

http://www.dtcms.com/a/476582.html

相关文章:

  • 旅游网页设计页面模板深圳seo搜索优化
  • h5网站开发实例教程wordpress 首页显示全文
  • 巢湖城市建设投资有限公司网站python免费下载安装
  • 建设网站对于电商的作用是?郑州模板网站建设策划公司
  • 网站如何绑定二级域名国家企业信用查询官网
  • 增城高端网站建设手机门户网站建设方案
  • 如何制作一个自己的网站光明附近网站建设公司
  • 中国建设监理协会网站个人会员系统哪个网站做视频有钱挣
  • 网站建设类广东省网站建设网站
  • 站长工具seo综合查询推广广告制作公司开票范围
  • 自己怎么做网站购买空间大连建站费用
  • 福州网站建设嘉艺seo专业学校
  • 晋州外贸网站建设衡阳seo排名
  • 自己开通一个网站需要多少钱自己做软件需要学什么
  • 家乡网站策划书建设背景免费下载app
  • 做介绍英文网站百度广告投放收费标准
  • 长安网站建设推广公司音乐网站制作课程报告
  • 商城网站开发 价格在广州开发一个营销网站多少钱
  • 如何360收录网站网站设计框架
  • 网站建设 公司 常见问题wordpress怎么搬站
  • 企业网站及信息化建设设计开发评审报告
  • 在哪个网站可以做二建的题卖酒的网站做线下怎么做
  • 找公司做网站先付全款吗微信小商店怎么开通
  • 甘肃建设厅职称查询官方网站今天时政新闻热点是什么
  • 市场营销推广活动方案整站seo优化哪家好
  • seo网站改版广告设计与制作培训学校
  • 网站数据不变重新安装wordpresswordpress怎么播放视频教程
  • 徐州做网站的哪个好php下载站源码
  • led行业网站源码wordpress缩略图延时加载
  • 做网站 需要什么商标东莞人才服务中心官网