当前位置: 首页 > news >正文

ChainForge:衡量Prompt性能和模型稳健性的GUI工具包

ChainForge是一个用于构建评估逻辑来衡量模型选择,提示模板和执行生成过程的GUI工具包。ChainForge可以安装在本地,也可以从chrome浏览器运行。

ChainForge可以通过聊天节点对多个对话可以使用不同的llm并行运行。可以对聊天消息进行模板化,并且可以在此过程中为每个节点更新和更改底层LLM。

聊天节点对于会话接口的生成审计非常重要。可以检查每个节点以检测提示漂移,LLM漂移等。

下图显示了如何通过表格数据输入来定义预期响应或真值响应。

下面的文本字段节点用七个容器。提示符以文本字段为前提;其次是聊天节点。在聊天节点中,可以使用以前使用的LLM,也可以定义新的LLM。

对于每个聊天节点,可以定义一个检查节点来查看LLM响应。

响应选择器有一个分组列表或表的选项,可以在下面看到所引用的每个模型的输出。

下面的LLM Scorer,通过使用评分提示来使用单个模型对其他LLM回答进行评分,

 Respond with ‘true’ if the text is positive, and respond with ‘false’ if the text is negative.

总之,ChainForge是一个用于对大型语言模型(LLM)提示进行测试的开源可视化编程环境,用于分析和评估LLM响应,功能包括:快速有效地同时查询多个LLM,测试提示的想法和变化;比较不同提示排列和模型的响应质量,选择最适合你的用例的提示和模型。

官网的DEMO在这里:

https://avoid.overfit.cn/post/f43da49cc8794b969fe9cf1251acfbdc

相关文章:

  • 面试经典 150 题 4 —(数组 / 字符串)— 80. 删除有序数组中的重复项 II
  • NFTScan | 10.02~10.08 NFT 市场热点汇总
  • 大成者大累,大智者大优,无能者无欲无求
  • Docker搭建MySQL8.0主从复制(一主一从)
  • 【算法与数据结构】--目录
  • RocketMq(五)消息机制
  • [leetcode 单调栈] 901. 股票价格跨度 M
  • 系统架构设计:9 论软件系统架构评估及其应用
  • 华为云云耀云服务器L实例评测|Ubuntu云锁防火墙安装搭建使用
  • uniapp中videojs、renderjs的使用
  • 重构项目 vue2 => vue3 nuxt2 => nuxt3 遇到的问题
  • 【linux进程(三)】进程有哪些状态?--Linux下常见的三种进程状态
  • 远程实时监控管理:5G物联网技术助力配电站管理
  • 百度将在世界大会上发布AI大模型文心4.0;OpenAI考虑自主开发AI芯片
  • Java中使用正则表达式
  • CSS3实现动画加载效果
  • nginx-proxy反向代理缓存
  • Unity可视化Shader工具ASE介绍——3、ASE的Shader类型介绍
  • ds套dp——考虑位置转移or值域转移:CF1762F
  • Flink--9、双流联结(窗口联结、间隔联结)
  • 警方通报男子地铁上拍视频致乘客恐慌受伤:列车运行一度延误,已行拘
  • 上海:企业招用高校毕业生可享受1500元/人一次性扩岗补助
  • 复旦发文缅怀文科杰出教授裘锡圭:曾提出治学需具备三种精神
  • 融创中国:今年前4个月销售额约112亿元
  • 丰田汽车:美国关税或导致4、5月损失1800亿日元,新财年净利润下滑三成
  • 习近平同俄罗斯总统普京举行会谈