当前位置：首页 > news >正文

【Ragflow】25.Ragflow-plus开发日志：excel文件解析新思路/公式解析适配

news 2025/9/14 11:44:13

引言

RagflowPlus v0.3.0 版本中，增加了对excel文件的解析支持，但收到反馈，说效果并不佳。

以下测试文件内容来自群友反馈提供，数据已脱敏处理。

示例数据节选

经系统解析后，分块效果如下：

v0.3.0版本解析效果

可以看到，由于该文件包含很多列信息，导致表格被截断，同一行信息完全错位，分散到了不同的chunk中。

表格解析新思路

其实问题就出在对表格文件的处理上，直接套用MinerU的文件处理管线，会先通过LibreOffice将文件转成pdf的形式，再进行表格区域识别。

其实，excel本身就是格式化的表格，这样的处理方式，就像是拿尼康八百定去拍人物写真，上重装备，还拍不好。

既然excel已经是格式化的文件，只需要用pandas去逐行读取就行了。

考虑一般表格都会有表头，每一行内容需要和表头关联，因此，每个chunk根据表头+当前行的形式划分即可，示例代码如下：

import pandas as pddef parse_excel(file_path):# 读取Excel文件df = pd.read_excel(file_path)# 获取表头headers = df.columns.tolist()blocks = []for _, row in df.iterrows():# 构建HTML表格html_table = "<html><body><table><tr>{}</tr><tr>{}</tr></table></body></html>".format("".join(f"<td>{col}</td>" for col in headers), "".join(f"<td>{row[col]}</td>" for col in headers))block = {"type": "table", "img_path": "", "table_caption": [], "table_footnote": [], "table_body": f"{html_table}", "page_idx": 0}blocks.append(block)return blocksif __name__ == "__main__":file_path = "test_excel.xls"parse_excel_result = parse_excel(file_path)print(parse_excel_result)

将这个解析逻辑融合进解析模块，再次解析，效果如下：

修正后的excel文件解析结果

关键词编辑技巧

虽然已经把表格格式处理好了，但进行检索测试，发现效果不好，关键词相似度为0。

直接检索的效果

上篇文章，已经详细分析过关键词相似度的计算方式。由于表格实际上是html格式的数据，这会间接导致原始关键词的提取存在问题。

实际上，ragflow原本就提供了一种为chunk块编辑关键词的方式。

双击chunk，可以对关键词进行自定义设置。

比如，我设定该chunk的关键词为某学员姓名，再次检索此关键词，关键词相似度就变成了100。

编辑完关键词后的检索效果

用对话模型进行测试，模型能正确检索回答。

公式解析适配

之前有群友问过：为什么解析文件时，会过滤公式的chunk。

我当时给出的回答是这样：公式都是由数学符号组成，本身和问题不会具备相似性。比如，正常问题通常会问xx公式，但不会把公式原本的形式当成问题去问。这就会导致将公式变成解析块会毫无意义，因为压根不会被检索出来。

但是利用关键词编辑，就可以让公式chunk具备实际意义，因此将公式chunk添加进解析结果。

以下是一个包含公式的文件解析结果：

以2-3公式(假设作为一个公式的具体名字)为测试文本进行检索，是得不到任何结果的。

利用关键词编辑，为其添加关键词：

再次检索，就可以顺利检索出来。

用问答模块测试，也可以正常显示。

总结

本文对表格和公式两类元素进行调优测试，不难发现，对于rag系统来说，检索是至关重要的环节。

想要效果好，就需要对每一个块进行精调。

因此，在进行对话测试前，检索测试是必要环节：如果检索不出来，那就要排查chunk块的类型和关键词设定；如果能检索到，模型回答不出来，那就是模型本身的性能问题。

文章转载自：

http://FsOMG9j5.ctLjs.cn
http://RiCnMkPZ.ctLjs.cn
http://nENyQAGI.ctLjs.cn
http://XWviBcPf.ctLjs.cn
http://SynJDgMR.ctLjs.cn
http://D1ARZ2hL.ctLjs.cn
http://ZsCXi7p0.ctLjs.cn
http://kz2gKBsa.ctLjs.cn
http://LwFA1zCG.ctLjs.cn
http://6x1uRMpX.ctLjs.cn
http://xx5Dpvqv.ctLjs.cn
http://HRYY25A8.ctLjs.cn
http://erG8eRXL.ctLjs.cn
http://8R8U6Rh2.ctLjs.cn
http://SdgLrpVz.ctLjs.cn
http://NzPb8I4N.ctLjs.cn
http://DHMYHSeT.ctLjs.cn
http://1dv4Ml2K.ctLjs.cn
http://vnt0RrV4.ctLjs.cn
http://U2p2ngcb.ctLjs.cn
http://o58WBDAK.ctLjs.cn
http://FlIkIl1P.ctLjs.cn
http://GWLwL1YR.ctLjs.cn
http://kYsp3P9C.ctLjs.cn
http://MPJuzpNN.ctLjs.cn
http://7Yodz8a0.ctLjs.cn
http://OLkrCjX5.ctLjs.cn
http://ZNvDHxuO.ctLjs.cn
http://BmZpel5X.ctLjs.cn
http://7vDc3w7a.ctLjs.cn

http://www.dtcms.com/a/228016.html

相关文章：

【Spring AI】调用 DeepSeek 实现问答聊天

【信创-k8s】海光/兆芯+银河麒麟V10离线部署k8s1.31.8+kubesphere4.1.3

谷歌地图苹果版v6.138.2 - 前端工具导航

Redis：常用数据结构单线程模型

pikachu靶场通关笔记11 XSS关卡07-XSS之关键字过滤绕过(三种方法渗透)

pikachu靶场通关笔记12 XSS关卡08-XSS之htmlspecialchars(四种方法渗透)

一个html实现数据库自定义查询

持续领跑中国异地组网路由器市场，贝锐蒲公英再次登顶销量榜首

UI自动化常见的一些问题解决方式

「EN 18031」访问控制机制（ACM - 1）：智能路由器的安全守卫

JavaScript基础-数组/对象

【数据分析】第四章 pandas简介（2）

3.1 HarmonyOS NEXT分布式数据管理实战：跨设备同步、端云协同与安全保护

Elasticsearch + Milvus 构建高效知识库问答系统《一》

C++仿RabbitMQ实现消息队列

华为云Flexus+DeepSeek征文｜DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

QT实现动画翻转效果

【嵌入式（2）深入剖析嵌入式开发：从基础到实战】

Spring中@Controller和@RestControlle注解的区别

Python爬虫监控程序设计思路

JVM-内存结构

食品电商突围战！品融电商全平台代运营，助您抢占天猫京东抖音红利！

Scrapy爬虫框架Spiders爬虫脚本使用技巧

Halcon光度立体法

Python训练第四十三天

DHCP 动态主机配置协议（Dynamic host configuration protocol）逐层封装过程： DHCP --＞ UDP --＞ IP

相机Camera日志分析之二十四：高通相机Camx 基于预览1帧的process_capture_request三级日志分析详解

KITTI数据集（计算机视觉和自动驾驶领域）

Java编程之建造者模式

项目课题——基于ESP32的智能插座