当前位置: 首页 > news >正文

RAG文档切片新方案HiChunk:LLM重构RAG文档分块

在检索增强生成(RAG)的世界里,**文档分块(Document Chunking)**是一切的基石。如何将一篇长文档切分成有意义、不大不小的知识片段(Chunks),直接决定了后续检索的精度和最终生成答案的质量。然而,绝大多数现有的分块方法,无论是简单的固定大小分割,还是更智能的语义分割,都遵循一个共同的、却存在根本性缺陷的范式:线性分块(Linear Chunking)。它们将文档视为一个扁平的、一维的句子或段落序列。

这种线性视角,在面对结构层次分明、信息组织复杂的真实世界文档(如学术论文、技术手册、法律合同)时,显得捉襟见肘。用户的查询有时需要一个高屋建瓴的章节摘要,有时又需要一个具体到某个段落的精确细节。线性的、固定粒度的分块,难以动态地满足这种多层次的信息需求。

来自腾讯优图实验室的研究者们提出了HiChunk(Hierarchical Chunking),一个旨在颠覆传统线性分块的层级化文档结构框架。它不再将被动地“切割”文档,而是主动地利用微调后的大型语言模型(LLM)来“理解”并“重构”文档的内在层级结构,并配合一个创新的Auto-Merge检索算法,实现了检索粒度的动态自适应。

1. 引言:RAG需要“结构化”的知识

传统分块方法的“原罪”在于其上下文粒度的静态性

  • 固定大小分块 (Fixed-size Chunking):简单粗暴,极易切断语义完整的句子或段落。
  • 语义分块 (Semantic Chunking):通过计算句子间嵌入向量的相似度来确定分割点,能够保证单个chunk的语义内聚性,但依然是单一层级的。

而用户的查询是多粒度的:

  • 高层查询: “总结一下这篇论文的主要贡献。” -> 需要章节级别的上下文。
  • 中层查询: “解释一下实验设置部分的细节。” -> 需要小节级别的上下文。
  • 低层查询: “公式(3)中的变量gamma代表什么?” -> 需要段落或句子级别的上下文。

线性分块,无论粒度大小,都无法同时高效地满足这三种需求。HiChunk的出现,正是为了解决这一**粒度失配(granularity mismatch)**的核心问题。

2. HiChunk核心架构:基于LLM的“文档结构化”

HiChunk的核心是一个经过专门微调的LLM,其任务不再是生成对话或文章,而是将一篇长文档的所有句子,组织成一棵层级分明的“文档树”

2.1 任务定义:从文本生成到结构预测

HiChunk巧妙地将复杂的“文档结构化”任务,转换成了一个LLM擅长的文本生成任务。

  • 输入: 一篇被预先分割成句子的文档,每句带有一个行号。
    1: 这是第一句。
    2: 这是第二句,属于第一段。
    3: 这是新的一段的开始。
    ...
    
  • 输出: 一个描述了所有“分割点”及其层级的列表。
    [[1, 1, true], [3, 1, true], [10, 2, false], ...]
    
    • 每个元组{line number}, {segment level}, {be a title?}代表一个新chunk的开始。
    • {segment level}: 数字越小,层级越高(如1代表章,2代表节)。
    • {be a title?}: 该行是否可以作为这个chunk的标题。

2.2 模型训练:教LLM如何“划分章节”

  • 基础模型: Qwen3-4B
  • 训练数据:
    • 公开数据集: Gov-report, Qasper, Wiki-727,这些数据集本身就包含明确的文档结构(章节标题)。
http://www.dtcms.com/a/536291.html

相关文章:

  • mybatis的sql中,如果一个条件column=#{column},column的值为null时,会不会匹配出column is null 的记录
  • 购物商城系统搭建实战指南
  • 怎么做网站挣钱做一下网站收购废钢
  • 专业移动微网站建设玖玖建筑网
  • 无锡建行网站网站加速cdn
  • kafka使用-admin创建
  • 渗透测试中常见的网络端口
  • 超市进销存系统管理源码 超市管理系统源码
  • Python 文件常数引用
  • 钦州电商网站建设南京网络建站公司
  • TCP数据中转服务器/广播服务器(高并发TCP服务广播)winform.netcore(net8)
  • 实验室温湿度高精度采集与监控中心集中管理实施细则
  • set和map的封装(C++)
  • Python机器学习---7.实战案例:幸福指数分析
  • 大型网站建设淮安公司网站建设
  • 重庆简约型网站开发价格做教程网站资源放哪里有
  • axios封装实例
  • 日语学习-日语知识点小记-构建基础-JLPT-N3阶段-二阶段(8):阶段复习
  • RabbitMQ死信队列详解
  • 信息消除不确定性的多维解析
  • Day12:Python实现邮件自动发送
  • 点亮LED
  • 家乡ppt模板免费下载网站地图 添加到网站
  • JMeter直连数据库的使用案例1
  • 网站备案ip查询系统上海十大营销策划公司排名
  • STM32H743-ARM例程31-CAN
  • Claude Code + 国产模型GLM-4.6 安装指南 (for Windows/Mac)
  • Docker 镜像导出与导入教程(Windows - Linux)
  • ARM《4》_在开发板上裸机编程实现GPIO编程控制LED灯闪烁
  • 手机商城 手机网站建设郴州今天几例