当前位置：首页 > news >正文

企业年报问答RAG挑战赛冠军方案：从零到SotA，一战封神

news 2025/9/11 6:32:28

RAG挑战赛是什么？

任务是基于企业年报构建问答系统。比赛日的流程简而言之：

解析阶段：获得100份随机企业的年报（PDF格式，每份最多1000页），限时2.5小时完成解析并构建数据库。
问答阶段：系统需在最短时间内回答100道根据模板生成的随机问题。

所有问题必须有明确答案类型，例如：

是/非题；
公司名称（或多选情况）；
管理层职位、新产品名称；
数值指标：营收、门店数量等。

每个答案必须附带证据页码，确保系统真实检索而非杜撰。

冠军系统架构：

伊利亚·莱斯揭秘了他构建最佳RAG系统并在企业RAG挑战赛中夺冠的独门秘籍。他包揽了所有奖项类别和SotA排行榜的双料冠军。源代码。

除了基础流程，获胜方案还包含两个路由器和LLM重排序模块

完整问答示例可查看这里。

接下来将详细拆解系统构建的每一步，包括踩过的坑和发现的最佳实践。

RAG极速入门

RAG（检索增强生成）通过将大语言模型（LLM）与任意规模的知识库结合，扩展了LLM的能力边界。

基础RAG系统开发流程：

解析：将原始文档转换为文本并清洗噪声。
入库：构建并填充知识库。
检索：根据查询定位相关数据，通常采用向量数据库的语义搜索。
生成：用检索结果增强用户提问，通过LLM生成最终答案。

1. 解析：与PDF的搏斗

将PDF转为纯文本是个充满陷阱的战场：

保留表格结构
维护标题/列表等关键格式
识别多栏文本
处理图表/图像/公式/页眉页脚等

遇到的奇葩PDF问题（未解决版）：

90度旋转的表格：解析后变成天书
图文混合的图表：文字层和图片层打架
字体编码陷阱：肉眼可见但复制即乱码

趣味发现：部分乱码实为凯撒密码，每个单词的ASCII位移量不同。这是防抄袭还是转换事故？至今成谜。

解析器选型

测试了二十余种解析器后，IBM开发的Docling脱颖而出。但仍需魔改源码：

新增JSON元数据输出
支持MD/HTML格式表格转换
通过GPU加速（租用4090显卡云服务器，每小时0.7美元）

最终40分钟解析15万页，速度碾压其他选手。

2. 入库：知识库的诞生

分块策略

原始方案：整页作为块（约2000词）
优化方案：300词分块+50词重叠（语义相关性提升30%）
每个块记录元数据：ID+父页码

向量化

数据库：100个独立FAISS库（每企业对应一个）
索引类型：IndexFlatIP（暴力搜索保证精度）
嵌入模型：text-embedding-3-large

3. 检索：寻找圣杯的旅程

混合搜索（弃用）

向量搜索+BM25关键词搜索的合体技，但效果不如预期。

重排序三选一

交叉编码器：精度高但速度慢（Jina Reranker表现佳）
LLM重排序：GPT-4o-mini打分，性价比之王
- 提示词模板：点击查看
父页面检索：先定位相关块，再返回整页内容

最终方案组合拳：

向量搜索Top30块
LLM重排序（权重0.7）
返回Top10完整页面

4. 生成：提示词的艺术

路由策略

企业路由：用正则匹配问题中的公司名，秒级定位对应数据库
问题类型路由：根据答案类型（数值/布尔/列表等）动态选择提示词模板

复合问题处理

示例问题：“苹果和微软谁的营收更高？”

拆解为：“苹果的营收？”+“微软的营收？”
分别检索后比较

思维链（CoT）的精髓

通过结构化输出强制LLM分步推理：

class AnswerSchema(BaseModel):
    step_by_step_analysis: str  # 详细推理过程
    reasoning_summary: str      # 结论摘要
    relevant_pages: List[int]   # 证据页码
    final_answer: Union[str, int, float]  # 严格格式化答案

提示词打磨心法

为每种问题类型定制指令（例如数值必须去除货币符号）
包含单样本示例（示范完美回答格式）
通过200+次迭代优化措辞

5. 性能与意外发现

速度

全量100问仅需2分钟（利用OpenAI的TPM限速阈值）
批处理25问/请求

反直觉结论

表格序列化：虽酷炫但降低效果（干净表格无需额外处理）
小模型潜力：Llama 8B击败80%参赛者

6. 终极秘籍

冠军系统的魔法不在某个"银弹"，而在于：

深度理解问题：手动标注验证集200+问题
模块化设计：每个组件可单独调参测试
细节偏执：从PDF解析到提示词标点皆有规范

伊利亚开放了完整源码

文章转载自：

http://zzSymnfp.ynwdk.cn
http://IRcDlQnr.ynwdk.cn
http://JNqVLbDp.ynwdk.cn
http://8hFkwZmx.ynwdk.cn
http://Qiv2Sz6M.ynwdk.cn
http://lDg3SUTI.ynwdk.cn
http://5gf6tUKP.ynwdk.cn
http://dpBn802f.ynwdk.cn
http://MZjrzSvN.ynwdk.cn
http://jSqBMcTK.ynwdk.cn
http://lP5NkxcF.ynwdk.cn
http://hdbcbwo3.ynwdk.cn
http://DTlWtboz.ynwdk.cn
http://mpqz9GvF.ynwdk.cn
http://v65ABGvB.ynwdk.cn
http://WWm3LN6G.ynwdk.cn
http://SqDrikaV.ynwdk.cn
http://gg6ZaqdN.ynwdk.cn
http://xd5fGJim.ynwdk.cn
http://jiY9jkgr.ynwdk.cn
http://Se3N02LE.ynwdk.cn
http://Yr0yjJUf.ynwdk.cn
http://qEC8ABlp.ynwdk.cn
http://R3IfHVfS.ynwdk.cn
http://sZDBxnYW.ynwdk.cn
http://whukbqU0.ynwdk.cn
http://W0HJx1ys.ynwdk.cn
http://Dxt2rAh6.ynwdk.cn
http://AO2SeIFA.ynwdk.cn
http://Ss3LAwR2.ynwdk.cn

查看全文

http://www.dtcms.com/a/127844.html

AI 大语言模型 (LLM) 平台的整体概览与未来发展

#关于数据库中的时间存储

006.Gitlab CICD流水线触发

Python实现链接KS3，并批量下载KS3文件数据到本地

MySQL数据库备份与恢复详解

21 天 Python 计划：MySQL索引机制从基础到应用

人事招聘专员简历模板

谷歌开源代理开发工具包（Agent Development Kit，ADK）：让多智能体应用的构建变得更简

【区分定语从句和同位语从句】

普瑞PS8742B

【JavaScript】对 Proxy 与 defineProperty 的理解和运用场景

DeepSeek大语言模型部署指南：从基础认知到本地实现

使用Python从零开始构建端到端文本到图像 Transformer大模型

STM32F103复用JTAG/SWD引脚为GPIO

数学建模：针对汽车行驶工况构建思路的延伸应用

大模型SFT用chat版还是base版 SFT后灾难性遗忘怎么办

大模型常见面试题

上篇：新能源轻卡城配物流经济/动力模式量化定义（理论篇）——数学暴力破解工程困局

十六、Linus网络编程基础

【学习笔记】服务器上使用 nbconvert 将 Jupyter Notebook 转换为 PDF

北邮LLMs在导航中的应用与挑战！大模型在具身导航中的应用进展综述

go语言内存泄漏的常见形式

Day-03 前端 Web-Vue Axios 基础

docker部署scylladb

鲁大师绿色版,纯净无广告

统计当前页面的localStorage使用了多少空间

FATFS文件系统配置

Sa-Token v1.42.0 发布 [特殊字符]，新增 API Key、TOTP 验证码、RefreshToken 反查等能力

NOIP2015提高组.运输计划

Web 项目实战：构建属于自己的博客系统