主流Agent开发平台学习笔记:扣子罗盘coze loop 功能拆解
如果说不知道从哪里入手开始学习大模型AI相关知识,那么从铺天盖地打广告的豆包、扣子coze入手开始学习不会有太大问题。
大模型迭代的浪潮风起云涌,各种突破、颠覆的传闻在社交媒体上不断刷新着认知,AI Agent似乎已经成了大模型落地的主流选择,和最佳实践。
BAT等各路大厂大力推广,企图占领技术高地,作为软件开发从业者,我们不妨去积极探索,了解行业的动向。
一、什么是Agent开发平台
Agent 开发平台是面向智能体生产场景的一站式开发平台,能力覆盖但不限于智能体编排、知识库管理、大小模型交互、计量、开放、私有化部署等功能。有效提供智能体研发效率,降低智能体研发耗费的人力和时间成本。
二、行业主流产品体验
通过简单的调研,发现国内知名的大厂都推出了对应的Agent 开发平台,包括字节Coze扣子、百度千帆、阿里百炼、腾讯元器等平台。
作为新手小白,不妨以这些公开的主流开发平台作为学习资料进行学习,了解行业的动向。
通过梳理核心功能模块,识别行业标杆功能设计学习 Agent构建、知识库、插件、模型管理、效果评测、生态、多模态等模块的最佳实践
通过对比分析,各个平台的功能优劣,以及人无我有的领先功能。
字节Coze扣子 | 百度千帆 | 阿里百炼 | 腾讯元器 |
平台地址扣子 | 平台地址 百度智能云千帆大模型平台 | 平台地址 百炼控制台 | 平台地址腾讯元器 |
https://loop.coze.cn/op文档地址en/docs/cozeloop/what-is-evaluation | 文档地址 模型评估 - ModelBuilder | 文档地址 执行模型评测任务_大模型服务平台百炼(Model Studio)-阿里云帮助中心 | 文档地址 ​ |
三、AI Agent 开发运维平台分析
以扣子平台入手,扣子的产品矩阵主要为
产品名称 | 网址 | 截图 | 描述 |
扣子开发平台 Coze Studio | https://www.coze.cn | | 零基础开启 Agent 专业开发,适合新手和专业开发者使用。 |
扣子空间 Coze Space | https://space.coze.cn | | 精通各项技能的「通用实习生」,各行各业的「领域专家」,提供多样化的智能解决方案。 |
扣子罗盘 Coze Loop | https://loop.coze.cn | | 帮助专业开发者快速搭建 AI Agent,高效完成观测、评测、Prompt 开发调试工作。 |
扣子代码框架 Coze Eino | https://www.coze.cn/eino | | Eino 是覆盖 DevOps 全流程的大模型应用开发框架,包含最佳实践样例(Eino Examples)和各环节的工具链支持。 |
扣子罗盘拆解笔记
扣子罗盘在4月份上线,但在互联网上几乎没有检索到,任何关于这个平台的讨论信息,通过拆解和体验,可以感受到扣子罗盘很独特且重要的 工程价值,我们一起来简单的拆解学习下。
由于个人精力和笔记篇幅原因,我选择以扣子最新推出的子产品 扣子罗盘 CozeLoop 入手开始进行体验和学习,计划使用对比分析法 对比 百度千帆、阿里百炼、腾讯元器、腾讯TI-ONE训练平台、腾讯云智能体开发平台等 对应的平台功能 进行学习
平台地址 扣子罗盘
文档地址 扣子罗盘
扣子罗盘的官方定位 主要为 prompt的开发、评测、和观测能力
拆解扣子罗盘的工作台
顶层为空间的选择,不同空间之间进行资源隔离,空间可以进行多人协作和共享。
简单的 页面功能拆分
一级菜单 | propmt工程 | 评测 | 观测 | 模型 | SDK&API |
二级菜单 | prompt开发 playground | 评测集 评估器 实验 | trace 统计 | 模型管理 | 授权 编排框架Eino 扣子罗盘SDK |
菜单截图 | | | | | |
个人总结 | 核心功能提供
亮点功能总结
客户案例 豆包 MarsCode 研发工具 扣子罗盘 核心挑战:
借助Prompt 功能
MarsCode AI 编程助手基于扣子罗盘统一管理 Prompt并结合本地业务的动态渲染能力,实现了高效且灵活的管理方式有效解决早期迭代效率低、灵活性差的问题。 与此同时,Prompt 和评测能力深度打通,使得用户能够持续、高效地开展评测工作,给后续 AI 应用的深度效果调优提供基础。 | 评测为扣子罗盘的生态建设中至关重要的一环 提供标准评测数据管理、自动化评估引擎和综合的实验结果统计,帮助开发者在效果、性能和成本方面优化 AI Agent。 核心模块 1评测集:输入数据和预期的输出结果 2评估器:评测裁判
3实验:过程中的所有数据和分析结果,助力业务决策
亮点功能: 评测集
评估器
实验
| 观测主要为 调用记录和统计看板 1.trace 为 扣子罗盘的核心功能 完整调用链路的可视化分析各节点耗时和过程数据 从“黑盒模型”到“透明决策” 2.统计内容主要为 消耗用量、耗时、错误率 应用场景
扣子罗盘 客户案例,懂车帝,借助trace功能
| 模型管理 支持多种筛选能力 类型、权益、状态、上下文长度 和特色标签 支持查看详情和用量 | 扣子罗盘通过授权,开源编排框架和SDK 提供对外交互的能力 授权页面较为通用 无其他特点 扣子罗盘 SDK 支持集成 Eino 和 Langchain 框架,快速实现 AI 应用的接入和数据上报。同时,也支持通过使用扣子罗盘的 API 以更加灵活的方式进行数据上报 SDK支持内容:
|
页面截图 | prompt开发 调用记录跳转trace playground 自由对比模式 优化prompt | 1.评测集 1.1新建评测集 1.2.1评测集详情 1.2.2评测集关联实验 2.评估器 2.1 评估器详情&版本记录 2.1.1评估器调试 2.1.2 评估器提交新版本 2.2新建评估器 3实验 3.1新建实验 3.1.2新建实验关联评测集 3.1.3 新建实验关联评测对象 3.1.4 新建实验关联评估器 3.1.5新建实验确定实验配置 3.2.1 实验详情数据明细 3.2.2实验详情指标统计 3.2.3实验对比选择实验 3.2.3.1 实验对比数据明细 3.2.3.1.1 实验对比数据明细详情 3.2.3.2 实验对比指标统计 | 1.trace 1.1 trace 详情 1.1.1 trace详情 metadata 元数据
| 1.模型管理 1.1 模型详情 | 1.授权 OAuth应用 1.1授权创建应用 1.1.1 授权创建应用配置 1.1.2 创建授权应用协议 1.2 已授权应用 1.2.1 已授权应用权限查看 1.3 访问令牌 1.3.1 创建访问令牌 1.3.1.1 创建访问令牌成功 1.3.2 访问令牌编辑 2.编排框架Eino 外链 https://github.com/cloudwego/eino 3.扣子罗盘SDK 外链 扣子罗盘 |
扣子罗盘学习总结:
扣子开发平台 提供的可视化设计与编排工具,可以通过零代码或低代码的方式,快速搭建出基于大模型的各类 AI 项目,满足个性化需求、实现商业价值。可以理解成 帮助 用户0-1 的进行 智能体和应用的搭建。但缺少观测链路。
而从 扣子罗盘提供的核心能力,prompt工程、评测实验 和 监控trace和统计,可以理解为更加成熟的 智能体和应用的精细化 更专业的 运营管理和迭代。
后续学习规划
由于篇幅和精力原因,当前只拆解了 扣子罗盘一个子产品,后续的todo将会完成 扣子开发平台、阿里百炼、百度千帆、腾讯元器的平台拆解,通过对比学习 了解行业动态,识别行业标杆功能,和各个平台的功能优劣。
2.扣子开发平台拆解笔记TODO
扣子开发平台 提供的可视化设计与编排工具,可以通过零代码或低代码的方式,快速搭建出基于大模型的各类 AI 项目,满足个性化需求、实现商业价值。可以理解成 帮助 用户0-1 的进行 智能体和应用的搭建。但缺少观测链路。
平台地址:扣子
文档地址:扣子
扣子开发平台核心能力
1.AI应用编排能力:Prompt、插件、知识库、工作流、大模型、记忆
2.智能体、工作流、应用 多渠道发布
3阿里百炼拆解笔记 TODO
阿里云的大模型服务平台百炼是一站式的大模型开发及应用构建平台。不论是开发者还是业务人员,都能深入参与大模型应用的设计和构建。您可以通过简单的界面操作,在5分钟内开发出一款大模型应用,或在几小时内训练出一个专属模型,从而将更多精力专注于应用创新。
平台地址:百炼控制台
文档地址:什么是百炼_大模型服务平台百炼(Model Studio)-阿里云帮助中心
百炼核心功能
拆解百炼工作台
顶层为空间的选择,不同空间之间进行资源隔离,空间可以进行多人协作和共享。 和扣子相同,入口隐藏较深无文本展示
百炼与扣子罗盘不同的特点,支持空间的模型授权以及详细限流配置
一级页面拆解为 模型、应用、两大模块功能拆解
4.百度千帆拆解笔记TODO
千帆ModelBuilder覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。
平台支持 有监督微调(SFT)
平台地址:百度智能云千帆大模型平台
文档链接:千帆平台使用指引 文心大模型
5.腾讯元器拆解笔记TODO
腾讯元器”是基于腾讯混元大模型的一站式智能体制作平台,支持通过提示词、插件外部api、知识库、工作流能力对大模型进行增强
平台地址:腾讯元器
文档链接:​