当前位置: 首页 > news >正文

Rerank 模型的其中两种路径:BERT 相似度与 CoT 推理

        在构建高性能的问答系统或检索增强生成(RAG)架构时,Rerank(重排序)模块是信息检索质量的关键环节。它决定了哪些文档将最终送入大模型生成答案,因此直接影响回答的准确性与可用性。

        传统的 Rerank 主要基于 BERT 向量相似度,而近年来兴起的 Chain of Thought(CoT)式推理模型也逐渐在复杂任务中展现出优势。        

一、传统 BERT + 余弦相似度:稳定的基础方案

实现方式

传统 Rerank 使用的是双塔结构或 Sentence-BERT 架构:

  1. 将 Query 和文档分别转化为向量。

  2. 通过余弦相似度衡量两者相似程度。

  3. 得分越高,认为语义越相关。

score = cosine_similarity(embedding(query), embedding(doc))

示例:

Query: 为什么乔治·华盛顿是第一任总统?
Doc: 他在1789年就任总统,是宪法批准后的首位总统。
Score: 0.91

优点与局限

项目优点局限性
性能快速计算、适合大规模部署缺乏推理能力
部署轻量、可本地化难以处理长句、跨句或复杂语义
使用场景FAQ 匹配、句子去重、商品相似推荐等不适合因果判断、逻辑验证、多跳问答


二、CoT 推理式 Rerank:智能排序的新趋势

什么是 CoT?

CoT(Chain of Thought)本质上是一种推理范式,而非模型结构。它通过让模型逐步展示推理过程,来提升判断的可信度与可解释性。

在 rerank 中,CoT 的作用是:对于每个候选文档,让模型用自然语言方式逐步判断它是否能支持 query,最后输出一个评分。

示例 Prompt:

Question: 为什么乔治·华盛顿是第一任总统?
Candidate Document: 他在1789年就任总统,是美国宪法批准后首位总统。
Chain of Thought:
- 宪法生效后设立了总统职位
- 乔治·华盛顿是第一位根据宪法当选的总统
- 所以该文档与问题高度相关Score: 9.2

优点与局限

项目优点局限性
逻辑表达能推理出支持关系,结果更可信推理链条需要构造,成本高
可解释性每一步推理可回溯不适合海量文档、对时延敏感的系统
应用场景复杂问答、多跳推理、反问判断需要结合小规模 top-k 召回才能落地

三、两者核心对比

项目BERT + 相似度CoT 推理式 Rerank
原理向量匹配(Cosine Similarity)自然语言推理链(语言模型生成评分)
推理能力
可解释性
资源消耗高(大模型推理)
适合场景大规模召回、精准匹配复杂问题筛选、推理任务验证
传统 Rerank 模型CoT Reranker
依赖向量匹配依赖语言逻辑链条
可解释性差每一步推理可跟踪
对结构化逻辑无感能处理复杂因果、推理、引用关系
一般为 BERT/双塔结构可用 GPT-like 生成模型实现,少样本也能用

四、CoT 和 CoT模型(轻量模型之一)?

“CoT”本质是推理方式,一些模型可以专门被微调为 CoT 判别器,例如:

  • LoRA 微调的 T5-CoT

  • monoT5 结合 CoT 生成风格

  • cross-encoder 加入多段逻辑支持标注数据训练

背景补充:https://zhuanlan.zhihu.com/p/629087587

场景示例:

  • 例如:判断一个三段逻辑是否能推出结论。

  • 输入:前提 A、前提 B、结论 C

  • 输出:true / false 是否逻辑成立。

这些模型往往在 小规模数据上微调,并用于步骤判断、归纳步骤的准确性检测,体量较小,因此在工程实践中被归入“轻量模型”。

CoT 使用场景举例(含 rerank 应用)

使用场景CoT 的作用说明 / 对比
1. 多跳问答(Multi-hop QA)展开中间步骤,逐步推理答案比直接预测更精准,能解释“为什么是这个答案”
2. 复杂推理判断任务给定多个前提、一个结论,判断是否合理类似自然语言的“逻辑推导”,非常适合 CoT 结构化展开
3. 内容验证 / 结论审校判断一个答案是否真的能从上下文中推出特别适合做 LLM 生成内容的验证器,可单独部署
4. 文本排序(Rerank)对多个候选回答/文档按“推理可信度”打分并排序类似 GPT + ReAct 思路,可结合打分 prompt 评估路径
5. 数学题解题类似 Scratchpad,逐步计算、记住中间变量通常结合“让模型写出计算步骤”来得到更稳定结果

CoT 思维链的边界与代价:

        尽管 Chain of Thought 让语言模型拥有了“可追溯的推理路径”,在复杂问答、数学解题、法律推理等任务中表现优异,但它依然面临如下局限:

1. 计算成本高,延迟显著上升

  • CoT 往往需要模型一步步生成推理过程,每一步都消耗 token 和算力

  • 相比直接回答,CoT 的 token 长度通常翻倍,延迟显著增加;

  • 在低时延场景(如实时问答、搜索补全)中难以接受。

2. 输出路径不稳定,容易“胡思乱想”

  • 模型生成的思维链不是严格逻辑推导,而是“语言上合理”;

  • 可能逻辑貌似正确,但事实错误

  • 在没有足够知识支持时,CoT 甚至比直接输出更容易幻觉。

3. 不适合强规则、结构化判断任务

  • 比如金融风控、审计、法律条款匹配等任务,需要高精度和可验证性;

  • CoT 生成的“语言推理路径”在这类任务中不具备可控性。

4. 对 Prompt 与样例依赖极高

  • CoT 效果很大程度上取决于提示词设计;

  • 不同任务、不同语言风格、样例顺序都会影响推理稳定性;

  • 这对 Prompt 工程提出更高要求,也增加了调试难度。

http://www.dtcms.com/a/299726.html

相关文章:

  • 如何应对心事干扰学习工作?
  • 高可用集群KEEPALIVED的详细部署
  • 【CTF-Web】dirsearch寻找download.php进行?path=flag.txt任意文件下载
  • 深入解析命名管道:原理、实现与进程间通信应用
  • 机器学习对中特估股票关键特征选取的应用与研究
  • 【橘子分布式】gRPC(番外篇-监听流)
  • Thinkph6中常用的验证方式实例
  • 【时时三省】(C语言基础)用指向函数的指针作函数参数
  • 网络:应用层
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-30,(知识点:传输线特性阻抗,影响因素)
  • 【web应用】基于Vue3和Spring Boot的课程管理前后端数据交互过程
  • 1、虚拟机安装
  • InfluxDB Flux 查询协议实战应用(二)
  • Linux726 raid0,raid1,raid5;raid 创建、保存、停止、删除
  • Python 程序设计讲义(22):循环结构——for 循环
  • 使用FRP搭建内网穿透工具,自己公网服务器独享内外网端口转发
  • C++ APM异步编程模式剖析
  • 2025微前端架构研究与实践方案
  • 【6G新技术探索】AG-UI(Agent User Interaction Protocol) 协议介绍
  • Flutter开发实战之动画与交互设计
  • Java 注解(Annotation)详解:从基础到实战,彻底掌握元数据驱动开发
  • 详细介绍MySQL的索引类型
  • mybatis-plus从入门到入土(三):持久层接口之IService
  • 【MySQL】MySQL 缓存方案
  • 【Redis】Linux 配置Redis
  • 基于华为ENSP的OSPFLSA深入浅出-0
  • 从三维Coulomb势到二维对数势的下降法推导
  • Netty中DefaultChannelPipeline源码解读
  • LangChain vs LangGraph:从困惑到清晰的认知之路(扫盲篇)
  • (一)使用 LangChain 从零开始构建 RAG 系统|RAG From Scratch