当前位置: 首页 > news >正文

主流Agent开发平台学习笔记:扣子罗盘coze loop 功能拆解

如果说不知道从哪里入手开始学习大模型AI相关知识,那么从铺天盖地打广告的豆包、扣子coze入手开始学习不会有太大问题。

大模型迭代的浪潮风起云涌,各种突破、颠覆的传闻在社交媒体上不断刷新着认知,AI Agent似乎已经成了大模型落地的主流选择,和最佳实践。

BAT等各路大厂大力推广,企图占领技术高地,作为软件开发从业者,我们不妨去积极探索,了解行业的动向。

一、什么是Agent开发平台

Agent 开发平台是面向智能体生产场景的一站式开发平台,能力覆盖但不限于智能体编排、知识库管理、大小模型交互、计量、开放、私有化部署等功能。有效提供智能体研发效率,降低智能体研发耗费的人力和时间成本。

二、行业主流产品体验

通过简单的调研,发现国内知名的大厂都推出了对应的Agent 开发平台,包括字节Coze扣子、百度千帆、阿里百炼、腾讯元器等平台。

作为新手小白,不妨以这些公开的主流开发平台作为学习资料进行学习,了解行业的动向。

通过梳理核心功能模块,识别行业标杆功能设计学习 Agent构建、知识库、插件、模型管理、效果评测、生态、多模态等模块的最佳实践

通过对比分析,各个平台的功能优劣,以及人无我有的领先功能。

字节Coze扣子

百度千帆

阿里百炼

腾讯元器

平台地址扣子

平台地址

百度智能云千帆大模型平台

平台地址

百炼控制台

平台地址腾讯元器

https://loop.coze.cn/op文档地址en/docs/cozeloop/what-is-evaluation

文档地址

模型评估 - ModelBuilder

文档地址

执行模型评测任务_大模型服务平台百炼(Model Studio)-阿里云帮助中心

文档地址

​

三、AI Agent 开发运维平台分析

以扣子平台入手,扣子的产品矩阵主要为

产品名称

网址

截图

描述

扣子开发平台 Coze Studio

https://www.coze.cn

零基础开启 Agent 专业开发,适合新手和专业开发者使用。

扣子空间 Coze Space

https://space.coze.cn

精通各项技能的「通用实习生」,各行各业的「领域专家」,提供多样化的智能解决方案。

扣子罗盘 Coze Loop

https://loop.coze.cn

帮助专业开发者快速搭建 AI Agent,高效完成观测、评测、Prompt 开发调试工作。

扣子代码框架 Coze Eino

https://www.coze.cn/eino

Eino 是覆盖 DevOps 全流程的大模型应用开发框架,包含最佳实践样例(Eino Examples)和各环节的工具链支持。

扣子罗盘拆解笔记

扣子罗盘在4月份上线,但在互联网上几乎没有检索到,任何关于这个平台的讨论信息,通过拆解和体验,可以感受到扣子罗盘很独特且重要的 工程价值,我们一起来简单的拆解学习下。

由于个人精力和笔记篇幅原因,我选择以扣子最新推出的子产品 扣子罗盘 CozeLoop 入手开始进行体验和学习,计划使用对比分析法 对比 百度千帆、阿里百炼、腾讯元器、腾讯TI-ONE训练平台、腾讯云智能体开发平台等 对应的平台功能 进行学习

平台地址 扣子罗盘

文档地址 扣子罗盘

扣子罗盘的官方定位 主要为 prompt的开发、评测、和观测能力

拆解扣子罗盘的工作台

顶层为空间的选择,不同空间之间进行资源隔离,空间可以进行多人协作和共享。

简单的 页面功能拆分

一级菜单

propmt工程

评测

观测

模型

SDK&API

二级菜单

prompt开发

playground

评测集

评估器

实验

trace

统计

模型管理

授权

编排框架Eino

扣子罗盘SDK

菜单截图

个人总结

核心功能提供

  • Prompt 模板
  • 模型配置
  • 函数调用

亮点功能总结

  • 支持一键优化 提升系统提示词的质量和效果
  • 支持 MessageList 形态的提示词模版托管
    • 系统提示词 (System prompt)
    • 用户提示词 (User prompt)
    • 助手回复 (Assistant prompt)
    • 占位符 (Placeholder)
  • 支持自由对比模式比较不同模型或不同提示词的表现场景,最多可添加 3 个对照组
  • 优化prompt有多重方式
    • 支持一键智能优化通过算法改进
    • 根据调试结果进行调优,人工指导修改方向
  • 管理功能
    • 提交版本差异展示
    • 版本记录查看
    • 还原创建副本

客户案例 豆包 MarsCode 研发工具

扣子罗盘

核心挑战:

  1. Prompt 场景调试手段匮乏
  2. Prompt 评测手段不规范
  3. 多人协作流程与工具不完善

借助Prompt 功能

  1. Prompt 版本管理:多人协作版本管理,直接发布线上,无需代码热更新
  2. 配 Prompt 场景的调试手段:快速验证同模型不同 Prompt、同 Prompt 不同模型效果
  3. Prompt 效果评测能力:Prompt 和评测能力深度打通,使得用户能够持续、高效地开展评测工作

MarsCode AI 编程助手基于扣子罗盘统一管理 Prompt并结合本地业务的动态渲染能力,实现了高效且灵活的管理方式有效解决早期迭代效率低、灵活性差的问题。

与此同时,Prompt 和评测能力深度打通,使得用户能够持续、高效地开展评测工作,给后续 AI 应用的深度效果调优提供基础。

评测为扣子罗盘的生态建设中至关重要的一环

提供标准评测数据管理、自动化评估引擎和综合的实验结果统计,帮助开发者在效果、性能和成本方面优化 AI Agent。

核心模块

1评测集:输入数据和预期的输出结果

2评估器:评测裁判

  • 指标得分:评估器根据预定义的评估标准对评测对象进行评分,涵盖准确性、效率等多个维度。
  • 原因分析:提供评分原因,理解评测优劣原因及改进方向。

3实验:过程中的所有数据和分析结果,助力业务决策

  • 评测集数据:所有测试输入和预期输出数据。
  • 评测对象输出结果的评分结果:各测试场景下的实际输出、成本、性能表现。
  • 评估器打分(即评估指标):不同评估器的评分结果,从多个角度分析评测对象的表现。

亮点功能:

评测集

  • 支持补充其他列 进行评估参考
  • 支持批量删除数据
  • 评测集支持版本管理但不可修改历史版本
  • 评测集支持关联的所有实验查看实验对比

评估器

  • 评估器支持手动创建,预置模板但支持用户修改
    • 限制:目前,评估器仅支持豆包模型。
  • 支持添加 User Prompt 输入希望强调的评估规则。
  • 评估器也支持预览调试和版本管理

实验

  • 实验发起前配置完成支持检查页面和预估评测进度
  • 实验结果支持人工修正分数和原因
  • 数据明细支持行级对比,针对badcase 进一步优化

观测主要为 调用记录和统计看板

1.trace 为 扣子罗盘的核心功能

完整调用链路的可视化分析各节点耗时和过程数据

从“黑盒模型”到“透明决策”

2.统计内容主要为 消耗用量、耗时、错误率

应用场景

  • 性能分析
  • 错误排查
  • 安全合规检查
  • 计费

扣子罗盘

客户案例,懂车帝,借助trace功能

  1. 实时全链路数据洞察:研发人员针对性优化
    1. 解决关键环节回溯依赖人工且数据还原困难的问题
    2. T + 1 数据排查严重制约调优与诊断效率的卡点
  1. 节点性能精准监控
    1. 研发人员能够快速锁定性能瓶颈,高效解决问题,有力保障业务的稳定、高效运行。

模型管理

支持多种筛选能力

类型、权益、状态、上下文长度

和特色标签

支持查看详情和用量

扣子罗盘通过授权,开源编排框架和SDK 提供对外交互的能力

授权页面较为通用 无其他特点

扣子罗盘 SDK 支持集成 Eino 和 Langchain 框架,快速实现 AI 应用的接入和数据上报。同时,也支持通过使用扣子罗盘的 API 以更加灵活的方式进行数据上报

SDK支持内容:

  • Prompt 拉取
    • 基于prompt key和版本号拉取
  • Trace 数据上报
    • root-span上报,建议每个请求创建一个完整trace 记录输入、系统响应、业务标志,请求完成进行Finish完成追踪
    • model-span上报,调用模型前后上报,模型信息、prompt信息,性能指标(token数量、时间戳、计算延迟)
    • 自定义上报,自定义基础信息、业务数据、标签和状态 进行分析记录业务关键流程

页面截图

prompt开发

调用记录跳转trace

playground

自由对比模式

优化prompt

1.评测集

1.1新建评测集

1.2.1评测集详情

1.2.2评测集关联实验

2.评估器

2.1 评估器详情&版本记录

2.1.1评估器调试

2.1.2 评估器提交新版本

2.2新建评估器

3实验

3.1新建实验

3.1.2新建实验关联评测集

3.1.3 新建实验关联评测对象

3.1.4 新建实验关联评估器

3.1.5新建实验确定实验配置

3.2.1 实验详情数据明细

3.2.2实验详情指标统计

3.2.3实验对比选择实验

3.2.3.1 实验对比数据明细

3.2.3.1.1 实验对比数据明细详情

3.2.3.2 实验对比指标统计

1.trace

1.1 trace 详情

1.1.1 trace详情 metadata 元数据

  1. 统计看板

1.模型管理

1.1 模型详情

1.授权 OAuth应用

1.1授权创建应用

1.1.1 授权创建应用配置

1.1.2 创建授权应用协议

1.2 已授权应用

1.2.1 已授权应用权限查看

1.3 访问令牌

1.3.1 创建访问令牌

1.3.1.1 创建访问令牌成功

1.3.2 访问令牌编辑

2.编排框架Eino 外链

https://github.com/cloudwego/eino

3.扣子罗盘SDK 外链

扣子罗盘

扣子罗盘学习总结:

扣子开发平台 提供的可视化设计与编排工具,可以通过零代码或低代码的方式,快速搭建出基于大模型的各类 AI 项目,满足个性化需求、实现商业价值。可以理解成 帮助 用户0-1 的进行 智能体和应用的搭建。但缺少观测链路。

而从 扣子罗盘提供的核心能力,prompt工程、评测实验 和 监控trace和统计,可以理解为更加成熟的 智能体和应用的精细化 更专业的 运营管理和迭代。

后续学习规划

由于篇幅和精力原因,当前只拆解了 扣子罗盘一个子产品,后续的todo将会完成 扣子开发平台、阿里百炼、百度千帆、腾讯元器的平台拆解,通过对比学习 了解行业动态,识别行业标杆功能,和各个平台的功能优劣。

2.扣子开发平台拆解笔记TODO

扣子开发平台 提供的可视化设计与编排工具,可以通过零代码或低代码的方式,快速搭建出基于大模型的各类 AI 项目,满足个性化需求、实现商业价值。可以理解成 帮助 用户0-1 的进行 智能体和应用的搭建。但缺少观测链路。

平台地址:扣子

文档地址:扣子

扣子开发平台核心能力

1.AI应用编排能力:Prompt、插件、知识库、工作流、大模型、记忆

2.智能体、工作流、应用 多渠道发布

3阿里百炼拆解笔记 TODO

阿里云的大模型服务平台百炼是一站式的大模型开发及应用构建平台。不论是开发者还是业务人员,都能深入参与大模型应用的设计和构建。您可以通过简单的界面操作,在5分钟内开发出一款大模型应用,或在几小时内训练出一个专属模型,从而将更多精力专注于应用创新。

平台地址:百炼控制台

文档地址:什么是百炼_大模型服务平台百炼(Model Studio)-阿里云帮助中心

百炼核心功能

拆解百炼工作台

顶层为空间的选择,不同空间之间进行资源隔离,空间可以进行多人协作和共享。 和扣子相同,入口隐藏较深无文本展示

百炼与扣子罗盘不同的特点,支持空间的模型授权以及详细限流配置

一级页面拆解为 模型、应用、两大模块功能拆解

4.百度千帆拆解笔记TODO

千帆ModelBuilder覆盖从数据管理、数据标注、模型开发、模型纳管、部署上线的AI能力研发与应用全生命周期建设和管理。接入文心大模型算法和开放第三方业内知名的模型算法,降低全流程AI开发门槛。
平台支持 有监督微调(SFT)

平台地址:百度智能云千帆大模型平台

文档链接:千帆平台使用指引 文心大模型

5.腾讯元器拆解笔记TODO

腾讯元器”是基于腾讯混元大模型的一站式智能体制作平台,支持通过提示词、插件外部api、知识库、工作流能力对大模型进行增强

平台地址:腾讯元器

文档链接:​

相关文章:

  • 【LLMs篇】13:LLaDA—大型语言扩散模型
  • Java异步编程难题拆解技术
  • 计算机系统结构-第五章-目录式协议
  • 修复与升级suse linux
  • 1950-2009年咸海测深特征数据
  • leetcode 二叉搜索树中第k小的元素 java
  • 小白初学SpringBoot记录
  • Inno Setup 脚本中常用术语释义
  • 一站式直播工具:助力内容创作者高效开启直播新时代
  • SQL语法
  • RAMSUN分享全新超值型MM32F0050系列MCU
  • Java基础原理与面试高频考点
  • Python绘图库及图像类型之基础图表
  • 告别延迟,拥抱速度:存储加速仿真应用的解决方案【1】
  • Gateway 搭建
  • NLP常用工具包
  • FreeType 字体信息检查工具 - 现代C++实现
  • 信创认证通关攻略:从环境搭建到测试报告的全流程操作指南
  • Maskrcnn网络结构学习
  • ArcGIS Pro 3.4 二次开发 - 地图探索
  • 网站开发时什么时间适合创建视图/企业网站建设报价表
  • 百度收录万网空间的网站需要多久/百度网站排名优化
  • 网站图片分辨率尺寸/软文是什么
  • 拼车网站的建设雨实现/企业网站模板 免费
  • 网站开发经理具备什么知识/软件推广平台有哪些
  • 建设网站门户/百度官方平台