当前位置: 首页 > news >正文

【AI大模型学习路线】第三阶段之RAG与LangChain——第十八章(基于RAGAS的RAG的评估)RAG中的评估思路?

【AI大模型学习路线】第三阶段之RAG与LangChain——第十八章(基于RAGAS的RAG的评估)RAG中的评估思路?

【AI大模型学习路线】第三阶段之RAG与LangChain——第十八章(基于RAGAS的RAG的评估)RAG中的评估思路?


文章目录

  • 【AI大模型学习路线】第三阶段之RAG与LangChain——第十八章(基于RAGAS的RAG的评估)RAG中的评估思路?
    • 🎯 一、为什么 RAG 需要特别的评估思路?
    • 🧱 二、RAG 评估的核心思路(来自 RAGAS)
      • 📌 RAG = Retriever + Generator
    • 🧪 三、RAG 的四大核心评估指标(RAGAS)
    • 🛠 四、Python 示例:基于 RAGAS 对 RAG 输出进行自动评估
      • 安装依赖
      • 示例代码
      • 输出结果示例:
    • 📊 五、应用评估思路的实际意义
      • 🚩 开发者可以通过评估值做什么?
    • 🧠 六、结合大模型发展趋势
    • ✅ 七、小结一句话


欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!

大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文。详细信息可关注VX “学术会议小灵通”或参考学术信息专栏:https://fighting.blog.csdn.net/article/details/148709313


🎯 一、为什么 RAG 需要特别的评估思路?

RAG(Retrieval-Augmented Generation)系统通过“检索 + 大模型生成”来提高问答质量,但相比普通 LLM 问答,它是一个两阶段的系统,因此:

  • 单靠回答本身,无法判断问题出在哪一阶段;
  • 普通指标(如 BLEU、ROUGE)无法衡量其“检索是否精准、回答是否真实”。

🧠 所以我们需要为 RAG 定制新的评估思路,帮助开发者识别问题位置:是“检索错了”还是“模型编故事”?

🧱 二、RAG 评估的核心思路(来自 RAGAS)

📌 RAG = Retriever + Generator

  • 每个部分都需要单独 + 组合评估:
模块问题评估思路
🕵️‍♂️ 检索模块(Retriever)检索内容是否覆盖答案?是否准确?上下文精度 / 召回
🤖 生成模块(LLM)回答是否来自检索?是否有幻觉?忠实性 / 相关性
✅ 整体质量回答是否可信且切题?综合得分

🧪 三、RAG 的四大核心评估指标(RAGAS)

指标名含义衡量内容
Faithfulness(忠实性)回答是否基于上下文,不编造识别“模型幻觉”
Answer Relevancy(相关性)回答是否准确回答了问题识别“跑题回答”
Context Precision(上下文精度)检索的文档是否与答案强相关识别“检索噪音”
Context Recall(上下文召回)检索是否覆盖全部答案内容识别“检索遗漏”
  • ✅ 四个指标从不同角度评估了 RAG 全流程,形成闭环。

🛠 四、Python 示例:基于 RAGAS 对 RAG 输出进行自动评估

安装依赖

pip install ragas langchain openai datasets

示例代码

from ragas.metrics import (faithfulness,answer_relevancy,context_precision,context_recall
)
from ragas import evaluate
from datasets import Dataset# 构建数据(真实场景中由RAG系统输出)
data = {"question": ["什么是RAG系统?"],"answer": ["RAG系统结合了检索器和生成式模型,用于提高回答准确率。"],"contexts": [["RAG系统是一种将检索器和语言模型结合起来的方法"]],"ground_truth": ["RAG是将信息检索与生成式语言模型结合的技术"]
}# 转为 HuggingFace Dataset
dataset = Dataset.from_dict(data)# 评估四个指标
result = evaluate(dataset=dataset,metrics=[faithfulness, answer_relevancy, context_precision, context_recall]
)# 查看评估结果
print(result.to_pandas())

输出结果示例:

指标分数(范围0-1)含义
Faithfulness0.98回答几乎完全基于检索内容
Answer Relevancy0.92回答内容与问题高度相关
Context Precision0.88检索内容大多有用
Context Recall0.70有少量答案未被检索覆盖

📊 五、应用评估思路的实际意义

🚩 开发者可以通过评估值做什么?

评估发现优化建议
Recall 低检索器要加强召回能力(e.g. 更长 chunk,更大候选)
Precision 低检索器应提高相关性过滤(e.g. rerank)
Faithfulness 低说明模型容易编故事,考虑使用 LLM 指令微调
Answer Relevancy 低问题理解或回答对齐存在问题,可优化 prompt

🧠 六、结合大模型发展趋势

随着 GPT-4、Claude 3、Gemini 等模型的能力增强,大家更关注其输出是否真实、可靠,特别在医疗、法律等领域,因此:

  • 📌 能不能精准评估 RAG 系统,是决定大模型能不能“上岗”的基础能力!

✅ 七、小结一句话

  • RAG 的评估不能只看回答本身,而应从“检索 + 生成”全流程出发,RAGAS 提供了忠实性、相关性、上下文精度/召回等评估指标,能帮你精准找到系统瓶颈,用 Python 自动化执行,构建可信的大模型问答系统。
http://www.dtcms.com/a/285611.html

相关文章:

  • 把握流程节点,明确信息传递
  • C专题5:函数进阶和递归
  • 最小生成树算法详解
  • 2025外卖江湖:巨头争霸,谁主沉浮?
  • 洞见AI时代数据底座的思考——YashanDB亮相2025可信数据库发展大会
  • NIO网络通信基础
  • AndroidX中ComponentActivity与原生 Activity 的区别
  • 关于字符编辑器vi、vim版本的安装过程及其常用命令:
  • 从抓包GitHub Copilot认证请求,认识OAuth 2.0技术
  • web3 区块链技术与用
  • 基于深度学习的语音识别:从音频信号到文本转录
  • 开源的大语言模型(LLM)应用开发平台Dify
  • 如何用Python并发下载?深入解析concurrent.futures 与期物机制
  • 服务攻防-Java组件安全FastJson高版本JNDI不出网C3P0编码绕WAF写入文件CI链
  • ARM64高速缓存,内存属性及MAIR配置
  • 预测导管原位癌浸润性复发的深度学习:利用组织病理学图像和临床特征
  • Nand2Tetris(计算机系统要素)学习笔记 Project 3
  • sqli(1-8)
  • ASP.NET Core Web API 内存缓存(IMemoryCache)入门指南
  • Pytorch下载Mnist手写数据识别训练数据集的代码详解
  • PyTorch新手实操 安装
  • 填坑 | React Context原理
  • SpringMVC + Tomcat10
  • 小结:Spring MVC 的 XML 的经典配置方式
  • 计算机视觉与机器视觉
  • Tensorflow小白安装教程(包含GPU版本和CPU版本)
  • C++并发编程-13. 无锁并发队列
  • div和span区别
  • 【Python】python 爬取某站视频批量下载
  • 前端实现 web获取麦克风权限 录制音频 (需求:ai对话问答)