【RAG】ragflow源码亮点:文档embedding向量化加权融合
引言:
最近在看ragflow源码,其中有一个较为巧妙地设计:分别将 文字 、 标题 行向量化 之后,直接根据权重,进行加法运算,得到向量融合,增强了文本向量化的表示能力,这里开始讨论一下,为什么这里可以直接对向量进行加法运算,而得到一个增强的表示
加权代码片段:
title_w = 0.1 是标题的权重
tts 是标题进行embedding向量化后的矩阵
cnts 是将内容进行embedding向量化后的矩阵
vects 生成的最终的文档向量
vects = (title_w * tts + (1 - title_w) *cnts) if len(tts) == len(cnts) else cnts
目的:优化表示
单独使用标题向量可能丢失细节(如标题 “报告” 无法区分是 “营收报告” 还是 “技术报告”);单独使用内容向量可能因信息冗余导致主题模糊(如大段无关描述覆盖核心主题)。通过加权融合,可弥补单一模态的缺陷。
完整embedding代码
async def embedding(docs, mdl, parser_config=None, callback=None):if parser_config is None:parser_config = {}batch_size = 16tts, cnts = [], []for d in docs:tts.append(d.get("docnm_kwd", "Title"))c = "\n".join(d.get("question_kwd", []))if not c:c = d["content_with_weight"]c = re.sub(r"</?(table|td|caption|tr|th)( [^<>]{0,12})?>", " ", c)if not c:c = "None"cnts.append(c)tk_count = 0if len(tts) == len(cnts):vts, c = await trio.to_thread.run_sync(lambda: mdl.encode(tts[0: 1]))tts = np.concatenate([vts for _ in range(len(tts))], axis=0)tk_count += ccnts_ = np.array([])for i in range(0, len(cnts), batch_size):vts, c = await trio.to_thread.run_sync(lambda: mdl.encode([truncate(c, mdl.max_length-10) for c in cnts[i: i + batch_size]]))if len(cnts_) == 0:cnts_ = vtselse:cnts_ = np.concatenate((cnts_, vts), axis=0)tk_count += ccallback(prog=0.7 + 0.2 * (i + 1) / len(cnts), msg="")cnts = cnts_title_w = float(parser_config.get("filename_embd_weight", 0.1))vects = (title_w * tts + (1 - title_w) *cnts) if len(tts) == len(cnts) else cntsassert len(vects) == len(docs)vector_size = 0for i, d in enumerate(docs):v = vects[i].tolist()vector_size = len(v)d["q_%d_vec" % len(v)] = vreturn tk_count, vector_size
问题:为什么可以直接简单地通过加法进行融合?
要理解“向量值的含义”和“加法为何能融合特征”,我们需要从语义向量空间的本质和特征融合的数学逻辑两个层面入手,结合具体场景(如文档向量化)解释:
一、向量值的本质:语义空间中的坐标
在自然语言处理(NLP)中,文本向量化(Embedding)的核心是将文本映射到一个高维语义空间中,向量的每个维度对应空间中的一个“语义特征”。==向量值(即每个维度的数值)本质是文本在该特征上的“得分” ==
举个具体例子
假设我们有一个简化的3维语义空间,三个维度分别代表:
- 维度1:“技术”相关程度(数值越大,文本越可能涉及技术);
- 维度2:“财务”相关程度(数值越大,文本越可能涉及财务);
- 维度3:“时间”(数值越大,文本越可能涉及时间描述)。
现在有两个文本:
- 标题:“2023年公司技术研发报告”
其向量可能是[0.8, 0.2, 0.7]
(表示:技术相关度80%,财务相关度20%,时间相关度70%)。 - 内容:“本年度研发投入5000万元,用于AI算法优化”
其向量可能是[0.7, 0.6, 0.3]
(技术相关度70%,财务相关度60%,时间相关度30%)。
这里的每个数值(如0.8、0.2)并非绝对的“分数”,而是模型通过预训练学习到的相对语义关联程度。向量整体则表示文本在这个语义空间中的“位置”——相似文本会在空间中相邻(向量余弦相似度高)。
二、为什么向量加法可以融合特征?
向量加法能融合特征的前提是:标题向量与内容向量在同一语义空间中(即由同一模型编码,维度相同且每个维度的语义含义一致)。此时,加法操作的本质是将两个向量在同一空间中的坐标按比例叠加,从而合并两者的语义信息。
从数学角度看:线性叠加保留所有特征
假设标题向量为 ( \mathbf{T} = [t_1, t_2, …, t_n] ),内容向量为 ( \mathbf{C} = [c_1, c_2, …, c_n] ),融合后的向量为 ( \mathbf{V} = w*\mathbf{T} + (1-w)*\mathbf{C} )(( w ) 是标题权重)。
每个维度 ( v_i ) 的计算为:
[ v_i = w*t_i + (1-w)*c_i ]
这相当于:
- 对标题在维度 ( i ) 的语义得分 ( t_i ),按权重 ( w ) 保留;
- 对内容在维度 ( i ) 的语义得分 ( c_i ),按权重 ( (1-w) ) 保留;
- 最终 ( v_i ) 是两者的加权和,同时包含标题和内容在该维度的信息。
从语义角度看:互补信息的融合
回到前面的例子,标题和内容的向量各维度得分如下:
维度 | 标题向量 ( \mathbf{T} ) | 内容向量 ( \mathbf{C} ) | 融合后 ( \mathbf{V} )(( w=0.3 )) |
---|---|---|---|
技术相关度 | 0.8 | 0.7 | ( 0.30.8 + 0.70.7 = 0.24 + 0.49 = 0.73 ) |
财务相关度 | 0.2 | 0.6 | ( 0.30.2 + 0.70.6 = 0.06 + 0.42 = 0.48 ) |
时间相关度 | 0.7 | 0.3 | ( 0.30.7 + 0.70.3 = 0.21 + 0.21 = 0.42 ) |
融合后的向量 ( \mathbf{V} = [0.73, 0.48, 0.42] ) 同时体现了:
- 标题的“时间相关度高”(原0.7,融合后0.42);
- 内容的“财务相关度高”(原0.6,融合后0.48);
- 两者共同的“技术相关度高”(原0.8和0.7,融合后0.73)。
这比单独使用标题(可能忽略财务细节)或内容(可能弱化时间信息)的向量更全面。
三、为什么必须用同一模型编码?
如果标题和内容用不同模型编码(例如标题用模型A,内容用模型B),它们的向量可能不在同一语义空间(维度不同,或同一维度的语义含义不同)。此时加法无意义。
例如:
- 模型A的维度1表示“技术相关度”;
- 模型B的维度1可能表示“长度”(文本字数);
- 两者的维度1数值无法直接相加(一个是语义得分,一个是字数统计)。
而代码中标题和内容均使用 mdl.encode
(同一模型),确保了向量在同一空间中,加法操作才有语义意义。
总结
向量值的本质是文本在高维语义空间中的坐标,每个维度对应一个语义特征的“得分”。同一模型编码的标题和内容向量处于同一空间,加法操作通过线性叠加合并了两者在各维度的得分,从而融合了标题的概括性特征和内容的细节性特征。这就像将两种颜色按比例混合——最终颜色同时保留了两种颜色的成分,且比例由权重参数控制。