当前位置：首页 > news >正文

RAG面试内容整理-8. 文档分块策略（滑动窗口、语义切分）

news 2025/8/1 14:09:38

RAG系统通常面对长文档或整篇知识库资料的检索需求，但大模型一次处理的文本长度有限，向量索引也需固定大小的文本片段。因此，将长文档拆分成合适片段是必不可少的步骤，被称为文档分块（chunking）策略。合理的分块有助于提高检索召回和后续生成的效果，避免“丢失在中间”（lost in the middle）的问题。

常见的分块方法之一是固定长度滑动窗口。例如，将文档按每段512个字（或 token）划分，相邻块之间可以有一定重叠（如 overlap 128 字）以免有重要句子被截断分散到不同块。这种方法实现简单，能保证覆盖文档全部内容且块大小适中。不过固定长度可能会在不恰当的位置截断句子或段落，造成语义不连贯甚至句意残缺。为缓解此问题，可以在切割时对齐自然段落或句子边界

http://www.dtcms.com/a/304098.html

相关文章：

pycharm自己的包导入不进去解决方案

博途SCL: Input、Output、Static、Temp、Constant、InOut 的详细介绍及案例

TCMalloc 内存分配原理简析

QFutureWatcher 收不到 finished 信号-QFutureWatcher 与对象生命周期

小白学OpenCV系列1-图像处理基本操作

Vue2 vs Vue3：核心差异与升级亮点

Django自带的加密算法

.NET Core 3.1 升级到 .NET 8

如何编写部署和支持需求---SRS软件需求规格指南系列

.NET 10 中的新增功能系列文章1——运行时中的新增功能

C++跨平台连接多种数据库实战

冒泡排序算法

Chrome 提示 “此扩展程序不再受支持”(MacOS/Windows)

CVPR 2025 | 华科精测：无需人工标注也能精准识别缺陷类别，AnomalyNCD 实现多类别缺陷自主分类

实用PDF演示解决方案

Transformer实战——BERT模型详解与实现

鸿蒙网络编程系列59-仓颉版TLS回声服务器示例

deepseek+飞书多维表格打造小红书矩阵

[源力觉醒创作者计划]_文心大模型4.5开源：从技术突破到生态共建的国产AI解读与本地部署指南

AI药师助手 + 药品图谱系统完整操作分析(python版)

【数据可视化-74】电信用户流失数据可视化分析：Python + Pyecharts 炫酷大屏（含完整的数据，代码）

【安装软件系列】Ubuntu安装MongoDb

姑苏区人工智能大模型基础设施｜参数1-3:服务器整体

React--》规划React组件库编码规范与标准 — Button篇

第十三讲：C++多态

多个参数组合生成sql的方法

BERT 的 NSP慢慢转换为SOP

arm v3 smmu 图示

Android四大组件之BroadcastReceiver解析

[2025CVPR]HUGNet2架构:事件相机光流估计