当前位置: 首页 > news >正文

个人资讯网站建设wordpress 主题 移动

个人资讯网站建设,wordpress 主题 移动,wordpress域名展示,湖北大网站建设【2025】Datawhale AI夏令营-多模态RAG-Task3笔记-解决方案进阶 Baseline代码优化方向 Task1、Task2笔记中记录了多模态RAG的任务难点: 如何同时利用图文混排PDF中的图表和文本信息回答问题?如何准确地从文档中检索可能和问题相关的内容?如何…

【2025】Datawhale AI夏令营-多模态RAG-Task3笔记-解决方案进阶

Baseline代码优化方向

Task1、Task2笔记中记录了多模态RAG的任务难点:

  1. 如何同时利用图文混排PDF中的图表和文本信息回答问题?
  2. 如何准确地从文档中检索可能和问题相关的内容?
  3. 如何基于检索结果正确地回答问题、追溯回答依据?

针对这3个任务难点,baseline方案的解决方案及不足分别如下:

  1. 暂时不考虑图表信息,只使用文本信息,使用PyMuPDF提取PDF文件中的内容。-》不足:①文档解析粗糙,丢失图表等关键的多模态信息,同时破坏了版面布局蕴含的逻辑关系;②按“页”分块破坏了上下文完整性。
  2. 计算文档分片(chunk)的embedding和问题(query)的embedding二者之间的sin相似度,提取sin相似度最高的K个chunk作为检索结果。没有处理信噪比相关的问题。-》不足:①仅使用向量相似度进行检索,对于包含特定术语或需要精准匹配的问题效果不佳,且容易引入噪音;②使用的embedding模型没有针对“金融财报”垂直领域进行优化,理解上会存在偏差。
  3. 使用LLM进行问题推理,提示LLM按照指定格式输出问题回答。同时在整个处理过程中定义并维护变量结构,该结构中使用"filename"和"page"字段记录检索结果的来源文件及具体页码。-》不足:使用的LLM模型没有针对“金融财报”垂直领域进行优化,理解上会存在偏差。

针对以上不足,可选的优化方向如下:

  1. 优化数据解析方式:利用MinerU强大的版面分析能力,提取出包含表格(转为Markdown)、图片、以及带有层级结构(标题、段落)的文本内容。
  2. 优化分块策略:基于MinerU精细化的解析结果,可以进行进一步解释图片内容,添加图片的描述信息。
  3. 优化检索策略:引入重排(Re-ranking),在检索环节后增加重排步骤,选出最相关的几个结果,提高上下文质量。例如,先根据向量相似性召回得到候选集(如Top 20相关的文本),然后使用更精准的重排模型对候选项进行打分排序,最后选取真正的Top K(如Top 3-5)输入LLM,大幅提升信噪比。
  4. 进行模型微调:微调Embedding模型、LLM,让模型更适应“金融财报问答”场景。

进阶方案

这篇笔记使用第1种优化方向,使用MinerU提取PDF中的图文信息,为LLM检索回答提供更细粒度、更丰富、上下文更流畅的知识文本。通过MinerU可以区分PDF中的标题、段落、表格和图片,并将表格转化为Markdown结构化格式。

注意:MinerU本身只能识别出图片,但不能解读图片中的内容,因此单纯利用MinerU也不能达到利用图片信息的目标。要想利用图片包含的信息,需要利用多模态模型将图片转化为文本描述,或者利用能够直接对图片进行推理的多模态大模型。

将baseline代码中使用的fitz(即PyMuPDF)替换成MinerU后,进阶方案结构如下图所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图源Datawhale教程。“阶段一”由mineru_pipeline_all.py完成,“阶段二”仍由rag_from_page_chunks.py完成。

MinerU使用准备

安装第三方库:Pillow、aiofiles、mineru。其中,mineru的安装需要较多依赖、耗时较长(我自己安装的时候需要安装100+个依赖包,耗时约2h)。

mineru的github仓库:https://github.com/opendatalab/MinerU

mineru的安装命令:

pip install uv
uv pip install -U "mineru[core]"

uv不是python第三方库,而是一个速度更快的python库安装器和运行器,可以替代pip的一部分功能。

代码理解-MinerU提取PDF图文信息

安装完成后,运行也需要较长时间,需要从huggingface上加载多个模型。

未完待续。

http://www.dtcms.com/a/408570.html

相关文章:

  • 【领域驱动设计】 领域驱动设计(DDD)概述、核心作用与学习线路
  • Day29_【深度学习(8)—循环神经网络RNN】
  • 自己建一个外贸网站企业网站托管外包怎么做
  • 成都 网站设计上海公司注册收费
  • 建设网上购物网站淘宝可做的团购网站
  • Python实现星雀优化算法(Nutcracker Optimizer Algorithm, NOA) (附完整代码)
  • 织梦cms手机网站备案成功后多久可以打开网站
  • 外贸网站建设渠道软件开发工程师就业前景
  • 做网站阿里云买哪个服务器好点微信公众号怎么创建第二个
  • 《MyBatis变形记:当SQL遇上“智能管家“》
  • 普宁网站建设在线p图
  • 网站请及时续费西湖南昌网站建设公司
  • 招标网站免费怎么区别做pc端和手机端网站
  • 制作商务网站wordpress 添加子菜单
  • 上海网站建设选缘魁-企查滕州做网站比较好的网络公司
  • 武夷山景区网站建设特点临沧网站建设临沧
  • 做海报哪个网站好thinkphp5来做网站吗
  • 河北雄安新区规划建设局网站宜选科技就是帮人做网站
  • 焦作网站建设兼职洛阳市做网站贴吧
  • 移动网站开发书籍江苏扬州建设工程信息网站
  • 网站如何适应屏幕现在pc端网站开发用的什么技术
  • 网站制作公司很好 乐云践新快速做效果图的网站叫什么
  • 黄石市建设局网站湖南众诚建设 官方网站
  • 自己做装修网站需要多少钱上海网址大全
  • [嵌入式embed]Keil5-STM32F103C8T6(江协科技)+移植FreeRTOS v9模版项目
  • 做窗帘的效果图网站那些因素会影响网站的排名位置
  • 惠州做网站哪家公司好wordpress吗
  • 网站做好了 后期怎么做企业网站营销优缺点
  • 做电子商务网站 除了域名 网页设计 还有服务器 和网站空间怎样建设网站后台
  • 做网站赚钱不旅游网站的首页怎么做