当前位置：首页 > news >正文

主流Agent开发平台学习笔记：扣子罗盘coze loop 功能拆解

news 2025/8/21 13:07:41

如果说不知道从哪里入手开始学习大模型AI相关知识，那么从铺天盖地打广告的豆包、扣子coze入手开始学习不会有太大问题。

大模型迭代的浪潮风起云涌，各种突破、颠覆的传闻在社交媒体上不断刷新着认知，AI Agent似乎已经成了大模型落地的主流选择，和最佳实践。

BAT等各路大厂大力推广，企图占领技术高地，作为软件开发从业者，我们不妨去积极探索，了解行业的动向。

一、什么是Agent开发平台

Agent 开发平台是面向智能体生产场景的一站式开发平台，能力覆盖但不限于智能体编排、知识库管理、大小模型交互、计量、开放、私有化部署等功能。有效提供智能体研发效率，降低智能体研发耗费的人力和时间成本。

二、行业主流产品体验

通过简单的调研，发现国内知名的大厂都推出了对应的Agent 开发平台，包括字节Coze扣子、百度千帆、阿里百炼、腾讯元器等平台。

作为新手小白，不妨以这些公开的主流开发平台作为学习资料进行学习，了解行业的动向。

通过梳理核心功能模块，识别行业标杆功能设计学习 Agent构建、知识库、插件、模型管理、效果评测、生态、多模态等模块的最佳实践

通过对比分析，各个平台的功能优劣，以及人无我有的领先功能。

字节Coze扣子

百度千帆

阿里百炼

腾讯元器

平台地址扣子

平台地址

百度智能云千帆大模型平台

平台地址

百炼控制台

平台地址腾讯元器

https://loop.coze.cn/op文档地址en/docs/cozeloop/what-is-evaluation

文档地址

模型评估 - ModelBuilder

文档地址

执行模型评测任务_大模型服务平台百炼(Model Studio)-阿里云帮助中心

文档地址

&ZeroWidthSpace;

三、AI Agent 开发运维平台分析

以扣子平台入手，扣子的产品矩阵主要为

产品名称	网址	截图	描述
扣子开发平台 Coze Studio	https://www.coze.cn		零基础开启 Agent 专业开发，适合新手和专业开发者使用。
扣子空间 Coze Space	https://space.coze.cn		精通各项技能的「通用实习生」，各行各业的「领域专家」，提供多样化的智能解决方案。
扣子罗盘 Coze Loop	https://loop.coze.cn		帮助专业开发者快速搭建 AI Agent，高效完成观测、评测、Prompt 开发调试工作。
扣子代码框架 Coze Eino	https://www.coze.cn/eino		Eino 是覆盖 DevOps 全流程的大模型应用开发框架，包含最佳实践样例（Eino Examples）和各环节的工具链支持。

扣子罗盘拆解笔记

扣子罗盘在4月份上线，但在互联网上几乎没有检索到，任何关于这个平台的讨论信息，通过拆解和体验，可以感受到扣子罗盘很独特且重要的工程价值，我们一起来简单的拆解学习下。

由于个人精力和笔记篇幅原因，我选择以扣子最新推出的子产品扣子罗盘 CozeLoop 入手开始进行体验和学习，计划使用对比分析法对比百度千帆、阿里百炼、腾讯元器、腾讯TI-ONE训练平台、腾讯云智能体开发平台等对应的平台功能进行学习

平台地址扣子罗盘

文档地址扣子罗盘

扣子罗盘的官方定位主要为 prompt的开发、评测、和观测能力

拆解扣子罗盘的工作台

顶层为空间的选择，不同空间之间进行资源隔离，空间可以进行多人协作和共享。

简单的页面功能拆分

一级菜单

propmt工程

评测

观测

模型

SDK&API

二级菜单

prompt开发

playground

评测集

评估器

实验

trace

统计

模型管理

授权

编排框架Eino

扣子罗盘SDK

菜单截图

个人总结

核心功能提供

Prompt 模板
模型配置
函数调用

亮点功能总结

支持一键优化提升系统提示词的质量和效果
支持 MessageList 形态的提示词模版托管

- 系统提示词 (System prompt)
- 用户提示词 (User prompt)
- 助手回复 (Assistant prompt)
- 占位符 (Placeholder)

支持自由对比模式比较不同模型或不同提示词的表现场景，最多可添加 3 个对照组
优化prompt有多重方式

- 支持一键智能优化通过算法改进
- 根据调试结果进行调优，人工指导修改方向

管理功能

- 提交版本差异展示
- 版本记录查看
- 还原创建副本

客户案例豆包 MarsCode 研发工具

扣子罗盘

核心挑战：

Prompt 场景调试手段匮乏
Prompt 评测手段不规范
多人协作流程与工具不完善

借助Prompt 功能

Prompt 版本管理：多人协作版本管理，直接发布线上，无需代码热更新
配 Prompt 场景的调试手段：快速验证同模型不同 Prompt、同 Prompt 不同模型效果
Prompt 效果评测能力：Prompt 和评测能力深度打通，使得用户能够持续、高效地开展评测工作

MarsCode AI 编程助手基于扣子罗盘统一管理 Prompt并结合本地业务的动态渲染能力，实现了高效且灵活的管理方式有效解决早期迭代效率低、灵活性差的问题。

与此同时，Prompt 和评测能力深度打通，使得用户能够持续、高效地开展评测工作，给后续 AI 应用的深度效果调优提供基础。

评测为扣子罗盘的生态建设中至关重要的一环

提供标准评测数据管理、自动化评估引擎和综合的实验结果统计，帮助开发者在效果、性能和成本方面优化 AI Agent。

核心模块

1评测集：输入数据和预期的输出结果

2评估器：评测裁判

指标得分：评估器根据预定义的评估标准对评测对象进行评分，涵盖准确性、效率等多个维度。
原因分析：提供评分原因，理解评测优劣原因及改进方向。

3实验：过程中的所有数据和分析结果，助力业务决策

评测集数据：所有测试输入和预期输出数据。
评测对象输出结果的评分结果：各测试场景下的实际输出、成本、性能表现。
评估器打分（即评估指标）：不同评估器的评分结果，从多个角度分析评测对象的表现。

亮点功能：

评测集

支持补充其他列进行评估参考
支持批量删除数据
评测集支持版本管理但不可修改历史版本
评测集支持关联的所有实验查看实验对比

评估器

评估器支持手动创建，预置模板但支持用户修改

- 限制：目前，评估器仅支持豆包模型。

支持添加 User Prompt 输入希望强调的评估规则。
评估器也支持预览调试和版本管理

实验

实验发起前配置完成支持检查页面和预估评测进度
实验结果支持人工修正分数和原因
数据明细支持行级对比，针对badcase 进一步优化

观测主要为调用记录和统计看板

1.trace 为扣子罗盘的核心功能

完整调用链路的可视化分析各节点耗时和过程数据

从“黑盒模型”到“透明决策”

2.统计内容主要为消耗用量、耗时、错误率

应用场景

性能分析
错误排查
安全合规检查
计费

扣子罗盘

客户案例，懂车帝，借助trace功能

实时全链路数据洞察：研发人员针对性优化

1. 解决关键环节回溯依赖人工且数据还原困难的问题
2. T + 1 数据排查严重制约调优与诊断效率的卡点

节点性能精准监控：

1. 研发人员能够快速锁定性能瓶颈，高效解决问题，有力保障业务的稳定、高效运行。

模型管理

支持多种筛选能力

类型、权益、状态、上下文长度

和特色标签

支持查看详情和用量

扣子罗盘通过授权，开源编排框架和SDK 提供对外交互的能力

授权页面较为通用无其他特点

扣子罗盘 SDK 支持集成 Eino 和 Langchain 框架，快速实现 AI 应用的接入和数据上报。同时，也支持通过使用扣子罗盘的 API 以更加灵活的方式进行数据上报

SDK支持内容：

Prompt 拉取

- 基于prompt key和版本号拉取

Trace 数据上报

- root-span上报，建议每个请求创建一个完整trace 记录输入、系统响应、业务标志，请求完成进行Finish完成追踪
- model-span上报，调用模型前后上报，模型信息、prompt信息，性能指标（token数量、时间戳、计算延迟）
- 自定义上报，自定义基础信息、业务数据、标签和状态进行分析记录业务关键流程

页面截图

prompt开发