当前位置：首页 > news >正文

RAG文本分块的魔法与智慧：传统分块与延迟分块，选哪个？

news 2025/7/1 17:01:40

嘿，算法工程师们！今天咱们聊的是分块（Chunking）这门“艺术”。首先抛出一个问题

语义分块：值得吗？

问题：语义分块听起来很高大上，但它真的值得那些计算成本吗？
实验：研究对比了三种分块策略：固定大小分块、基于断点的语义分块和基于聚类的语义分块。
结果：固定大小分块在大多数情况下表现更好，尤其是在真实数据集上。语义分块虽然在某些特定场景下有用，但计算成本高，性价比不高。
调侃：看来，语义分块就像是个“奢侈品”，不是每个任务都配得上它。有时候，简单粗暴的固定分块反而更香！

你听说过延迟分块吗？：一种更聪明的上下文保留法

问题：传统分块在嵌入之前就分割文档，导致上下文丢失，嵌入质量差。
解决方案：延迟分块！先让模型处理完整文档，再分块，保留上下文，提升嵌入质量。
调侃：延迟分块就像是个“拖延症患者”，但它拖延得很有道理！先让模型“吃饱”再“干活”，效果果然不一样。

语义分块是否值得计算成本

一项新研究调查了语义分块是否真的没有必要。让我们来看看发生了什么。

http://www.dtcms.com/a/85163.html

相关文章：

程序代码篇---Pyqt的密码界面

Jetpack Compose 选项卡控件实现

数据结构-二叉树

【Linux 维测专栏 2 -- Deadlock detection介绍】

NIO ByteBuffer 总结

WPF控件DataGrid介绍

Ubuntu常用命令大全 | 零基础快速上手指南

Python环境安装

【C++】内存管理

Github 2025-03-23 php开源项目日报Top10

MySQL中的锁（全局锁、表锁和行锁）

Java19虚拟线程原理详细透析以及企业级使用案例。

SpringMVC 的面试题

Python Cookbook-4.11 在无须过多援引的情况下创建字典

CICDDevOps概述

PID参数整定：从“炼丹术士“到“系统调音师“的进化指南

SVN忽略不必提交的文件夹和文件方法

网络基础（二）

一文解读DeepSeek在法律商业仲裁细分行业的应用

麒麟Win32运行环境

【蓝桥杯速成】| 10.回溯切割

Spring Boot（十七）：集成和使用Redis

【正点原子】AI人工智能深度学习(RV1126/RK3568/RK3588)-第1期准备篇

【Android】VehiclePropertyAccess引起CarService崩溃

AI比人脑更强，因为被植入思维模型【21】冯诺依曼思维模型

HarmonyOS Next～鸿蒙图形开发技术解析：AREngine与ArkGraphics 2D的核心能力与应用实践

雷电模拟器启动94%卡住不动解决方案

谷歌Gemini代码助手免费版解析：技术革新与用户隐私的权衡

Tomcat中间件漏洞攻略

2. AVL树