当前位置：首页 > news >正文

LLM评测框架Ragas Agents or Tool Use Cases指标（解决了Ollama推理框架不支持的问题）

news 2025/7/23 5:19:22

代理或工具使用工作流程可以从多个维度进行评估。以下是一些可用于评估代理或工具在特定任务中的性能的指标。

Topic Adherence

Topic Adherence(主题一致性），评价AI在交互过程中能够保持在预定义领域内的能力。TopicAdherenceScore需要AI能遵守一组由reference_topics和user_input提供的预定义主题。该指标可计算Topic Adherence的precision、recall和f1评分。

from ragas.dataset_schema import  SingleTurnSample, MultiTurnSample, EvaluationDataset
from ragas.messages import HumanMessage,AIMessage,ToolMessage,ToolCall
from ragas.metrics import TopicAdherenceScore
from langchain_ollama import ChatOllama
from ragas.llms import OllamaLLMWrapper
import asyncioasync def main():llm = ChatOllama(model="llama3.1:8b")evaluator_llm = OllamaLLMWrapper(ollama_llm=llm)sample_input_4 = [HumanMessage(content="Can you provide me with details about Einste

http://www.dtcms.com/a/291798.html

相关文章：

微软徽标认证是什么？如何快速获取驱动签名？

Linux操作系统从入门到实战（十二）Linux操作系统第一个程序（进度条）

【用户管理】usermod设置主组和附加组（三）

es搜索实现既能模糊查询又能分词查询

[Dify] -进阶10- Dify 的用户输入结构：变量、参数、文件上传全解析

stm32 智能小车

【多线程篇22】：ConcurrentHashMap的并发安全原理剖析

低成本、高泛化能力的无人机自主飞行！VLM-Nav：基于单目视觉与视觉语言模型的无地图无人机导航

C++类和对象（3）

从零搭建 OpenCV 项目（新手向）--第一天初识OpenCV与图像基础

MCP：Cline+DeepSeek在VSCode上配置

TDengine 计算百分位函数使用手册

.net web 中如何优雅地使用 redis？

MFC类Qt的自动布局框架

景区负氧离子监测设备：守护清新，赋能旅游

【kubernetes】-2 K8S的资源管理

学习笔记-关于中华心法问答系统的环境配置和源代码理解

基于Vue+ElementUI的借还款利息计算器

Java 动态导出 Word 登记表：多人员、分页、动态表格的最佳实践

SpringBoot集成PDFBox实现PDF导出(表格导出、分页页码、电子签章与数字签名)

RISC-V基金会Datacenter SIG月会圆满举办，探讨RAS、PMU性能分析实践和经验

Rust实战：决策树与随机森林实现

【vscode】vscode中python虚拟环境的创建

激光雷达-自动驾驶的“三维感知中枢“

IntelliJ IDEA (2024.3.1)优雅导入 Maven 项目的两种方式详解

【Java企业级开发】（六）Java框架技术-Maven和MyBatis

Docker容器介绍

Maven 环境配置全攻略：从入门到实战

Kafka灰度方案

两个android，一个客户端一个服务器端