当前位置: 首页 > news >正文

【训练细节解读】文本智能混合分块(Mixtures of Text Chunking,MoC)引领RAG进入多粒度感知智能分块阶段

RAG系统在处理复杂上下文时,传统和语义分块方法的局限性,文本分块的质量限制了检索到的内容,从而影响生成答案的准确性。尽管其他算法组件有所进步,但分块策略中的增量缺陷仍可能在一定程度上降低整体系统性能。如何直接量化分块质量?如何有效利用大型语言模型(LLMs)进行分块?如何在保持计算效率的同时提高分块精度等问题一直是我们RAG工作中的严重挑战!
MoC架构是一个混合框架,通过一个多粒度感知的路由器动态协调轻量级分块专家。该架构创新性地整合了:一个正则表达式引导的分块范式,一个基于稀疏激活的计算资源约束机制,以及一个由编辑距离驱动的校正算法。


核心创新:双重评估指标与混合分块架构

在这里插入图片描述

  1. 问题定义

    • RAG系统的瓶颈:传统文本分块方法(如固定长度分割、语义相似度分块)存在两大缺陷:
    • 语义割裂:固定分块破坏逻辑单元,语义分块易忽略长程依赖。
    • 评估间接性:现有方法依赖下游任务(如QA准确率)间接评估分块质量,噪声干扰大。
  2. 方法论突破

    • 双重直接评估指标
      • 边界清晰度(Boundary Clarity, BC)
        通过计算分块边界处困惑度(PPL)差异,量化边界明确性(公式1)。值越高,分块越符合语义逻辑。 用于评估分块在分隔语义单元方面的有效性。具体计算公式如下:

    BC ⁡ ( q , d ) = ppl ⁡ ( q ∣ d ) ppl ⁡ ( q ) \operatorname{BC}(q, d)=\frac{\operatorname{ppl}(q\mid d)}{\operatorname{ppl}(q)} BC(q,d)=ppl(q)ppl(qd)

    其中, ppl ⁡ ( q ) \operatorname{ppl}(q) ppl(q)表示句子序列 q q q的困惑度, ppl ⁡ ( q ∣ d ) \operatorname{ppl}(q\mid d) ppl(qd)表示在给定上下文 d d d下的对比困惑度。较低的困惑度值表示模型对文本的理解较好,而较高的值表示语义解释的不确定性较大。

    • 块粘性(Chunk Stickiness, CS)
      构建分块间语义关联图,计算结构熵。值越低,分块独立性越强。该指标用于评估文本块之间的紧密性和顺序完整性。具体计算公式如下:

    Edge ⁡ ( q , d ) = ppl ⁡ ( q ) − ppl ⁡ ( q ∣ d ) ppl ⁡ ( q ) \operatorname{Edge}(q, d)=\frac{\operatorname{ppl}(q)-\operatorname{ppl}(q\mid d)}{\operatorname{ppl}(q)} Edge(q,d)=ppl(q)ppl(q)ppl(qd)

    其中,边的权重表示文本块之间的相似度。构建一个语义关联图,节点表示文本块,边权重表示文本块之间的相似度。通过计算编辑距离来恢复算法,确保生成的分块规则与原始文本一致。

    • 混合分块器(MoC)架构
      • 数据集构建: 使用GPT-4o生成文本块,并通过结构化

相关文章:

  • 【乐企板式文件】关于乐企板式文件使用OFD模板解析的方式实现说明
  • AAAI2025 Accepted Papers(二)
  • AWS Bedrock全托管接入国产大模型DeepSeek-R1[内涵免费使用DeepSeek-R1满血版]
  • 【0x80070666】-已安装另一个版本...(Tableau 安装失败)
  • MFC中使用Create或CreateDialog创建对话框失败,GetLastError错误码为1813(找不到映像文件中指定的资源类型)
  • linux 命令 case
  • 力扣——合并K个排序链表
  • Ubuntu 18,04 LTS 通过APT安装mips64el的交叉编译器。
  • 平安养老险广西分公司2025年“3∙15”金融消费者权益教育宣传活动暨南湖公园健步行活动
  • uni-app+SpringBoot: 前端传参,后端如何接收参数
  • 矫平机:解锁精密制造的工业之手
  • 命令行创建 Docker 网络
  • Java程序开发之Spring Security实战:JWT实现登录鉴权
  • DataWhale 速通AI编程开发:(基础篇)第1章 环境下载、安装与配置
  • 场景题:一个存储IP地址的100G 的文件, 找出现次数最多的 IP ?
  • 【Nexus】Maven 私服搭建以及上传自己的Jar包
  • Gemini 2.0 全面解析:技术突破、应用场景与竞争格局
  • 正新鸡排:在变革浪潮中领航,打造连锁餐饮新生态
  • ARM内部寄存器与常用汇编指令(ARM汇编)
  • oracle中OS BLOCK的含义
  • 交响4K修复版《神女》昨晚上演,观众听到了阮玲玉的声音
  • 肖钢:一季度证券业金融科技投资强度在金融各子行业中居首
  • 国宝归来!子弹库帛书二、三卷抵达北京
  • 新疆多地市民拍到不明飞行物:几秒内加速消失,气象部门回应
  • 广州医药集团有限公司原党委书记、董事长李楚源被“双开”
  • 上海交大曾小勤:科技传播不应停留于知识搬运,要做科学思维的播种机