当前位置: 首页 > wzjs >正文

门户网站建设案例输入关键词自动生成标题

门户网站建设案例,输入关键词自动生成标题,建网站是永久的吗,做网站登录在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。 #一、 olmOCR是使用VLM进行的端到端的PDF文档解析 二、document-anchoring 与上述的不同在于,olmOCR使用…

在PDF解析中,目前主流的开源工具包括Minuer、GOT OCR等。主要都是通过飞桨等OCR套件组装的一套pipeline,或者直接通过VLM解析图像。

#一、 olmOCR是使用VLM进行的端到端的PDF文档解析
在这里插入图片描述

二、document-anchoring

与上述的不同在于,olmOCR使用了document-anchoring,文档锚定方法。针对PDF中的页码信息、图像信息等元数据和文字,使用pyPDF库进行解析。
在这里插入图片描述
通过在提示词里加入这些文字位置、图像位置、元数据等信息,VLM的幻觉大大减少。
加上位置信息,VLM应该能够定位到具体区域,然后专注于这部分的解析。
仅用页面图像进行提示容易出现未完成的句子,或者在图像数据模糊时产生不忠实的输出。

三、模型微调

数据集:构建了olmOCR-mix-0225数据集
训练:在Qwen2-VL-7B-Instruct上微调
评估:
1.与教师模型GPT-4o计算对齐得分,具体是文档相似性度量,该度量将文档拆分为单词,使用Hirschberg算法对这些单词进行对齐,并计算匹配的比例
2.人类评估:ELO分数
3.下游任务评估

项目:https://github.com/allenai/olmocr

http://www.dtcms.com/wzjs/412057.html

相关文章:

  • 永济市做网站百度搜索引擎入口登录
  • 大连手机自适应网站建设电话每日重大军事新闻
  • 做房地产要自己开网站seo成功案例分析
  • 网站建设企业资质等级seo网络营销外包公司
  • 自己电脑做网站 路由器建个人网站的详细步骤
  • 网站百度秒收优化大师怎么提交作业
  • 设计企业网站首页西安网站建设公司排名
  • 网站建设基地百度知道
  • 移动互联网开发实习报告北京seo学校
  • 毕设敦煌壁画网站开发选题背景网站设计与网页制作
  • jsp做的网站答辩问题域名查询注册商
  • 企业网站改版升级厦门seo代理商
  • 男女的做那个视频网站郑州seo课程
  • 北京做网站多少钱提高搜索引擎排名
  • 视频网站如何做seo河北seo公司
  • 17zwd一起做网站百度免费推广登录入口
  • wordpress扫码支付宝seo公司优化排名
  • 论坛网站地图怎么做sem 优化软件
  • WordPress 网站小图标东莞最新消息 今天
  • 怎么制作博客网站seo哪家公司好
  • 南昌微信网站开发公司宣传推广的十种方式
  • 最近发生的新闻热点事件长沙官网seo
  • 建设网站如百度客户服务电话是多少
  • 柳州做网站aso优化排名
  • 做o2o平台网站需要多少钱淘宝客推广
  • 兴远建设网站百度问一问官网
  • 网站开发毕业论文参考期刊文献抖音关键词推广怎么做
  • 天猫网站建设分析sem培训
  • 网站建设技术团队中国新闻社
  • 网站轮播图片怎么做的淘宝运营培训