当前位置: 首页 > wzjs >正文

营销网站建设技术网络推广接单平台

营销网站建设技术,网络推广接单平台,做微网站是订阅号还是服务号号,企业网站建设重庆在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。 #一、 olmOCR是使用VLM进行的端到端的PDF文档解析 二、document-anchoring 与上述的不同在于,olmOCR使用…

在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。

#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
在这里插入图片描述

二、document-anchoring

与上述的不同在于,olmOCR使用了document-anchoring,文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字,使用pyPDF库进行解析。
在这里插入图片描述
通过在提示词里加入这些文字位置、图像位置、元数据等信息,VLM的幻觉大大减少。
加上位置信息,VLM应该能够定位到具体区域,然后专注于这部分的解析。
仅用页面图像进行提示容易出现未完成的句子,或者在图像数据模糊时产生不忠实的输出。

三、模型微调

数据集:构建了olmOCR-mix-0225数据集
训练:在Qwen2-VL-7B-Instruct上微调
评估:
1.与教师模型GPT-4o计算对齐得分,具体是文档相似性度量,该度量将文档拆分为单词,使用Hirschberg算法对这些单词进行对齐,并计算匹配的比例
2.人类评估:ELO分数
3.下游任务评估

项目:https://github.com/allenai/olmocr

http://www.dtcms.com/wzjs/174210.html

相关文章:

  • 外贸易贷福建键seo排名
  • 邯郸移动网站建设公司广州关键词优化外包
  • 有没有专门做ppt的网站游戏app拉新平台
  • 平面设计哪里学百度seo排名优化如何
  • 淄博建设局网站电脑培训机构
  • 做网站公司排行全球搜索引擎排行榜
  • 智能网站建设哪家好交换链接的例子
  • 深圳好的网站建设公司友情网
  • 免费建立网站有必要吗写软文怎么接单子
  • 怎么做企业网站优化seo推广排名平台有哪些
  • 有哪些免费做网站wordpress建站公司
  • 做棋牌网站建设爱站工具包怎么使用
  • 网站建设公司的职责html做一个简单的网页
  • 网站建设类合同范本优化公司哪家好
  • 广州手机建站模板互联网营销有哪些方式
  • 分类网站一天做几条合适百度小说app
  • 南京seo收费资源优化网站排名
  • 做网站学什么专业哈尔滨最新疫情
  • 客户网站留言广州日新增51万人
  • 门户网站建设与管理做竞价推广大概多少钱
  • 二级域名备案流程重庆seowhy整站优化
  • 自己做网站帮公司出认证证书违法吗企业网络推广的方式有哪些
  • 网站建设劳务合同百度权重等级
  • 网站建设 电话咨询优质的seo快速排名优化
  • 写文案要看的网站竞价 推广
  • 深圳做网站建设广告推广文案
  • wordpress动漫网站网站策划方案
  • 网站路径怎么做seo网络排名优化哪家好
  • 网站网页设计制作软文兼职
  • 营销型网站的基本模板上海seo关键词优化