当前位置：首页 > news >正文

ST-Raptor：无需微调，准确率超越 GPT-4o 的半结构化表格问答新范式

news 2025/10/9 6:17:11

在文档智能、财务审核、报表自动化、医疗质控、法律合规等实际业务场景中，半结构化表格（如 Excel 报表、网页表格、Markdown 表格、CSV 文件等）无处不在。然而，这些表格往往具有嵌套单元格、多级表头、不规则布局等复杂结构，传统基于规则或微调模型的方法难以准确理解与问答。

近期，上海交通大学等机构开源了 ST-Raptor（Semi-Structured Table Raptor）——一个无需微调、准确率超越 GPT-4o 的半结构化表格问答系统。在自建的 SSTQA 基准测试（含 102 张真实表格、764 个复杂问题）上，ST-Raptor 以 72.39% 的准确率和 52.19 的 ROUGE-L 分数，显著优于包括 GPT-4o、DeepSeek-V3、TableLLaMA、ReAcTable 等在内的主流方法。

为什么半结构化表格问答如此困难？

与规整的数据库表不同，半结构化表格通常具备以下挑战：

多级表头：如“2024年 → 收入 → 主营业务收入”
合并单元格：一个单元格横跨多行或多列
非对齐内容：行列信息错位、注释混排
语义依赖上下文：单元格含义依赖其在表格中的位置和层级

这些特性使得传统 NL2SQL 或纯文本抽取方法失效，而端到端微调模型又受限于标注成本高、泛化能力弱。

ST-Raptor 的核心技术架构

ST-Raptor 的核心思想是：将视觉感知、结构解析与语言推理三者融合，形成一个无需微调但高度鲁棒的问答流水线。整体流程分为三步：

1. 视觉语言模型（VLM）识别原始表格

ST-Raptor 首先将输入的 Excel/HTML/Markdown 表格渲染为图像，利用 InternVL2.5 等 VLM 模型识别每个单元格的内容及其空间位置。这一步解决了 OCR 误差、格式丢失等问题，保留了原始布局语义。

2. HO-Tree 算法构建层次化结构树

基于 VLM 输出的单元格坐标与文本，ST-Raptor 引入自研的 HO-Tree（Hierarchical Organization Tree）算法，将表格自动抽象为一棵层次化语义树：

树的节点对应逻辑区块（如“预算绩效目标表”）
子节点表示子表头或数据行
路径编码了行列的层级依赖关系

这种结构化表示使得后续推理能精准定位问题所涉区域，避免“答非所问”。

3. LLM 在树结构上进行推理问答

最后，系统将问题与 HO-Tree 结合，通过大语言模型（如 DeepSeek-V3 或 GPT-4o API）在结构化上下文中进行推理。为确保可靠性，ST-Raptor 还引入两阶段验证机制：

语义一致性校验：答案是否与表格内容逻辑一致
结构定位校验：答案是否来自正确树节点

性能表现：全面超越现有方法

在 SSTQA、WikiTQ-ST、TempTabQA-ST 三个基准上，ST-Raptor 均取得 SOTA 结果：

方法	SSTQA 准确率	ROUGE-L
GPT-4o	62.12%	43.86
DeepSeek-V3	62.16%	46.17
ST-Raptor	72.39%	52.19

示例问题：“2024年市级部门整体预算绩效目标表中，就业服务满意度指标的目标值是多少？”
正确答案：≧90%
多数基线模型回答错误（如“75.0”、“≧95%”），而 ST-Raptor 精准命中。

快速上手

ST-Raptor 支持本地部署或 API 调用，提供 Gradio 可视化界面：

git clone https://github.com/weAIDB/ST-Raptor.git
cd ST-Raptor
conda create -n straptor python=3.10
conda activate straptor
pip install -r requirements.txt
# 配置模型路径与 API 密钥（见 utils/constants.py）
python main.py  # 批量推理
python gradio_app.py  # 启动 Web Demo

支持输入格式：Excel、HTML、CSV、Markdown 等，输出为结构化问答对。

适用场景

财务审核：自动提取预算表、报销单中的关键指标
医疗质控：从病历模板、检查报告中问答合规项
法律合规：解析合同附件、监管表格中的义务条款
学术研究：问答论文中的实验结果表、统计汇总表
企业报表自动化：HR、销售、仓储等半结构化数据问答

结语

ST-Raptor 通过“视觉理解 + 结构化解析 + 语言推理”的三段式架构，为半结构化表格问答提供了一种无需微调、高精度、强泛化的新范式。其开源不仅推动了表格理解技术的发展，也为工业界落地复杂文档智能提供了实用工具。

项目已开源，欢迎 Star & 试用：
🔗 https://github.com/weAIDB/ST-Raptor\ 📄 论文（待发表于 ACM SIGMOD 2026）：ST-Raptor: LLM-Powered Semi-Structured Table Question Answering

如需进一步集成到企业系统，项目团队也提供了 API 接口与轻量化部署方案。对于 GPU 资源有限的用户，亦可灵活替换为云端 LLM/VLM 服务。
github：https://github.com/weAIDB/ST-Raptor

查看全文

http://www.dtcms.com/a/457081.html