当前位置: 首页 > news >正文

【GitHub探索】Prompt开发评测平台CozeLoop踩坑体验

接续先前CozeStudio的文章,CozeLoop相对于CozeStudio,更加专注于Prompt Engineering,打磨整个Agent Prompt的效果。因此,本篇文章也分享一下笔者使用CozeLoop的体验,源码可以从这个Repo里面拉取。

CozeLoop也采用DDD的范式,但和CozeStudio稍微有区别。CozeLoop分为api、modules和infra三大层,但在modules里面就包含了评测集、评测实验、LLM、trace等模块,每个模块下面就有比较清晰的app、domain、infra的划分了,所以本质上还是符合DDD的范式的。

部署方面比较坑,CozeLoop没有CozeStudio那样开源的效果好,笔者折腾了很久才在本地跑起来服务。主要遇到了几个问题:

  • 主机用mac,但服务需要部署在linux/amd64的服务中,需要在Dockerfile以及各个安装脚本里面做兼容,比如指定架构platform、取消CGO等,防止指令集不兼容;
  • MySQL缺少默认DB,这个需要查下issue然后新增个sql+替换entrypoint.sh来解决;
  • cozeloop-broker起不来,这个发现是笔者自己的colima核数太少,加大核数调大sleep解决了。

开发方面,CozeLoop先是提供了一个Prompt调试界面,可以看到Prompt的运行结果,也有对比功能看不同模型不同Prompt对同一个问题的效果。然后评测方面,提供了评测集/评估器管理以及实验任务等功能。从评估器角度来看,评估器的Prompt需要有评测input、预期output以及实际output的输入,而被评估的Prompt必须得设置一个变量,引用评测集的input,才能让Prompt了解到每一次要评测哪个输入(也就是说,写一个面向评测的Prompt)。实验的过程也是submit任务,创建任务记录后,每条评测就开始自己在MQ里面Loop,推进结果了。由于注入变量这个事情官方文档讲的也不详细,也踩了一些坑,实际调试的时候,也可以根据每个测试的Trace结果,来判断实验是否按照预期执行。

http://www.dtcms.com/a/312433.html

相关文章:

  • 【gStreamer】Windows VS2022 C++ 项目中调用gstreamer相关函数,获取无线摄像头视频
  • LLM - 智能体工作流设计模式
  • C++ 设计模式综合实例
  • 设计原则和设计模式
  • 浅窥Claude-Prompting for Agents的Talk
  • Go语法:闭包
  • AD方案(OpenLDAP或微软AD)适配信创存在的不足以及可能优化方案
  • 风光储综合能源系统双层优化规划设计【MATLAB模型实现】
  • Android 之 WebView与HTML交互
  • ticdc同步集群部署
  • Java ++i 与 i++ 底层原理
  • 六、Linux核心服务与包管理
  • Unity_数据持久化_IXmlSerializable接口
  • java:判断两个实例(对象)相等
  • 多向量检索:lanchain,dashvector,milvus,vestorsearch,MUVERA
  • RabbitMQ面试精讲 Day 9:优先级队列与惰性队列
  • SQL154 插入记录(一)
  • 十八、Javaweb-day18-前端实战-登录
  • JavaScript 性能优化实战指南:从运行时到用户体验的全面提升​
  • 【openlayers框架学习】十:openlayers中控件的使用
  • 学习笔记《区块链技术与应用》第六天 问答 匿名技术 零知识证明
  • Apple基础(Xcode④-Flutter-Platform Channels)
  • Stream 过滤后修改元素,却意外修改原列表
  • Swift 运算符
  • 【Django】-9- 单元测试和集成测试(上)
  • Android 之 蓝牙通信(4.0 BLE)
  • Redis+Lua的分布式限流器
  • C++编译过程与GDB调试段错误和死锁问题
  • 北邮:LLM强化学习架构Graph-R1
  • C++-二叉树OJ题