当前位置：首页 > news >正文

【2025】Datawhale AI夏令营-多模态RAG-Task3笔记-解决方案进阶

news 2025/8/15 17:34:47

【2025】Datawhale AI夏令营-多模态RAG-Task3笔记-解决方案进阶

Baseline代码优化方向

Task1、Task2笔记中记录了多模态RAG的任务难点：

如何同时利用图文混排PDF中的图表和文本信息回答问题？
如何准确地从文档中检索可能和问题相关的内容？
如何基于检索结果正确地回答问题、追溯回答依据？

针对这3个任务难点，baseline方案的解决方案及不足分别如下：

暂时不考虑图表信息，只使用文本信息，使用PyMuPDF提取PDF文件中的内容。-》不足：①文档解析粗糙，丢失图表等关键的多模态信息，同时破坏了版面布局蕴含的逻辑关系；②按“页”分块破坏了上下文完整性。
计算文档分片（chunk）的embedding和问题（query）的embedding二者之间的sin相似度，提取sin相似度最高的K个chunk作为检索结果。没有处理信噪比相关的问题。-》不足：①仅使用向量相似度进行检索，对于包含特定术语或需要精准匹配的问题效果不佳，且容易引入噪音；②使用的embedding模型没有针对“金融财报”垂直领域进行优化，理解上会存在偏差。
使用LLM进行问题推理，提示LLM按照指定格式输出问题回答。同时在整个处理过程中定义并维护变量结构，该结构中使用"filename"和"page"字段记录检索结果的来源文件及具体页码。-》不足：使用的LLM模型没有针对“金融财报”垂直领域进行优化，理解上会存在偏差。

针对以上不足，可选的优化方向如下：

优化数据解析方式：利用MinerU强大的版面分析能力，提取出包含表格（转为Markdown）、图片、以及带有层级结构（标题、段落）的文本内容。
优化分块策略：基于MinerU精细化的解析结果，可以进行进一步解释图片内容，添加图片的描述信息。
优化检索策略：引入重排（Re-ranking），在检索环节后增加重排步骤，选出最相关的几个结果，提高上下文质量。例如，先根据向量相似性召回得到候选集（如Top 20相关的文本），然后使用更精准的重排模型对候选项进行打分排序，最后选取真正的Top K（如Top 3-5）输入LLM，大幅提升信噪比。
进行模型微调：微调Embedding模型、LLM，让模型更适应“金融财报问答”场景。

进阶方案

这篇笔记使用第1种优化方向，使用MinerU提取PDF中的图文信息，为LLM检索回答提供更细粒度、更丰富、上下文更流畅的知识文本。通过MinerU可以区分PDF中的标题、段落、表格和图片，并将表格转化为Markdown结构化格式。

注意：MinerU本身只能识别出图片，但不能解读图片中的内容，因此单纯利用MinerU也不能达到利用图片信息的目标。要想利用图片包含的信息，需要利用多模态模型将图片转化为文本描述，或者利用能够直接对图片进行推理的多模态大模型。

将baseline代码中使用的fitz（即PyMuPDF）替换成MinerU后，进阶方案结构如下图所示：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图源Datawhale教程。“阶段一”由mineru_pipeline_all.py完成，“阶段二”仍由rag_from_page_chunks.py完成。

MinerU使用准备

安装第三方库：Pillow、aiofiles、mineru。其中，mineru的安装需要较多依赖、耗时较长（我自己安装的时候需要安装100+个依赖包，耗时约2h）。

mineru的github仓库：https://github.com/opendatalab/MinerU

mineru的安装命令：

pip install uv
uv pip install -U "mineru[core]"

uv不是python第三方库，而是一个速度更快的python库安装器和运行器，可以替代pip的一部分功能。

代码理解-MinerU提取PDF图文信息

安装完成后，运行也需要较长时间，需要从huggingface上加载多个模型。

未完待续。

查看全文

http://www.dtcms.com/a/328822.html

HGDB的分区表实现SQL Server的分区视图

邀您参与 “直通乌镇” Spring AI Alibaba 开源竞技挑战赛！

2025 最应避免的摄影陷阱以及解决方案

八月补丁星期二：微软修复 111 个漏洞

String里常用的方法

Vue项目生产环境性能优化实战指南

服务器查看 GPU 占用情况的方法

mac环境下安装git并配置密钥等

搜索引擎核心机制解析

RabbitMQ面试精讲 Day 21：Spring AMQP核心组件详解

详解Windows（二十）——恶意软件清除

CV 医学影像分类、分割、目标检测，之【腹腔多器官语义分割】项目拆解

1.4.2 嵌入（embedding）模式：让人工智能大模型为你的产品或业务助力

大模型微调【1】之入门

实践基地授牌：重庆五一职院与成都影像产业园强实训

Coze Studio 概览（十）--文档处理详细分析

CW32L011电机开发板控制教程

C++ 面向对象四大特性：面试深度解析

一个接口多个实现类，如何动态调用

神经网络的核心组件解析：从理论到实践

ARM 实操流水灯按键控制 day53

Django REST Framework视图

HarmonyOS NDK的JavaScript/TypeScript与C++交互机制

Flask vs Django：微框架与一站式对决

web安全开发，在线%射击比赛管理%系统开发demo，基于html,css,jquery,python,django,三层mysql数据库

C# 异常处理与拦截全攻略：try/catch/finally、using、ASP.NET Core 中间件与过滤器一网打尽（含完整示例）

tRAP（tRNA 活性预测器）

Java开发主流框架搭配详解及学习路线指南

二叉树的最小深度

Android 终端接入 GB28181 国标视频平台的完整解决方案解析