微软重磅开源Magentic-UI!
微软研究院近期开源了 Magentic-UI,这是一款创新的 Web 智能体,专为提升人机协作体验而设计。与传统的自动化工具不同,Magentic-UI 强调 透明性、可控性和用户主导,让 AI 不再是“黑箱”,而是可干预、可调整的智能助,Magentic-UI 是一个基于多智能体系统的人机协作网页任务自动化工具。
微软开源 Magentic-UI:让 AI 智能体更透明、可控、协作
Magentic-UI 可以执行需要浏览 Web、编写和执行 Python 和 shell 代码以及理解文件的任务。其主要特点包括:
-
与用户协作规划 (共同规划)。Magentic-UI 允许用户通过计划编辑器或在 Magentic-UI 执行任何作之前提供文本反馈来直接修改其计划。
-
与用户协作执行(共同任务)。用户可以暂停系统并以自然语言提供反馈,或者通过直接控制浏览器来演示它。
-
人机交互(动作防护装置)确保安全。Magentic-UI 在执行可能不可逆的作之前寻求用户批准,用户可以指定 Magentic-UI 需要批准的频率。此外,Magentic-UI 被沙盒化,以便浏览器和代码执行程序等工具的安全运行。
-
人机协同带来安全性。Magentic-UI 在执行可能不可逆的作之前寻求用户批准,用户可以指定 Magentic-UI 需要批准的频率。此外,Magentic-UI 被沙盒化,以便浏览器和代码执行程序等工具的安全运行。
-
从经验中学习(计划学习)。Magentic-UI 可以从以前的交互中学习并保存计划,以提高未来任务的任务完成率。
核心架构特点
Magentic-UI 是一个基于多智能体系统的人机协作网页任务自动化工具 README.md:69-73 。系统包含四个专门的智能体:
-
Orchestrator(决策中枢):负责与用户协同规划、决定何时请求用户反馈,并将子任务委派给其他智能体。
-
WebSurfer(网页浏览器):配备网页浏览器,可以点击、输入、滚动和访问页面。
-
Coder(编程器):配备 Docker 代码执行容器,可以编写和执行 Python 和 shell 命令。
-
FileSurfer(文件浏览器):配备文件转换工具,可以定位文件、转换为 markdown 格式并回答相关问题。
人机协作特点:
-
协同规划:用户可以通过规划编辑界面与系统交互,添加、删除、编辑和重新生成步骤。
-
执行控制:用户可以暂停计划执行并发送额外请求或反馈,也可以配置智能体操作是否需要批准。
-
透明度:所有中间进度步骤都清晰地显示给用户。
技术特点
-
基于 AutoGen 框架:扩展了 AutoGen 的多智能体能力,增加了专门的网页浏览功能。
-
Playwright 集成:通过 Playwright 提供真实的浏览器控制能力。
-
内存系统:支持从以往任务中学习,可以检索和重用相关计划。
-
多语言支持:主要设计和测试使用英语,其他语言性能可能有所不同。
对比维度 | 传统AI智能体 | Magentic-UI |
控制模式 | 全自动或全手动 | 分级可控自动化 |
透明度 | 黑箱或有限日志 | 交互式执行图谱 |
安全架构 | 单一权限控制 | 沙箱隔离+白名单 |
学习机制 | 离线批量训练 | 在线计划学习 |
人机交互 | 单向指令传递 | 协同规划与编辑 |
部署复杂度 | 需要专业运维 | 渐进式采用路径 |
🔗 参考连接
-
https://github.com/microsoft/magentic-ui
-
https://magnet-ui.netlify.app/
-
https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/?utm_source=ai-bot.cn
-
https://mp.weixin.qq.com/s/Bg200T6miNbh3z9RNsmYAA