当前位置: 首页 > news >正文

微软重磅开源Magentic-UI!

微软研究院近期开源了 Magentic-UI,这是一款创新的 Web 智能体,专为提升人机协作体验而设计。与传统的自动化工具不同,Magentic-UI 强调 透明性、可控性和用户主导,让 AI 不再是“黑箱”,而是可干预、可调整的智能助,Magentic-UI 是一个基于多智能体系统的人机协作网页任务自动化工具。

微软开源 Magentic-UI:让 AI 智能体更透明、可控、协作

Magentic-UI 可以执行需要浏览 Web、编写和执行 Python 和 shell 代码以及理解文件的任务。其主要特点包括:

  • 与用户协作规划 (共同规划)。Magentic-UI 允许用户通过计划编辑器或在 Magentic-UI 执行任何作之前提供文本反馈来直接修改其计划。

  • 与用户协作执行(共同任务)。用户可以暂停系统并以自然语言提供反馈,或者通过直接控制浏览器来演示它。

  • 人机交互(动作防护装置)确保安全。Magentic-UI 在执行可能不可逆的作之前寻求用户批准,用户可以指定 Magentic-UI 需要批准的频率。此外,Magentic-UI 被沙盒化,以便浏览器和代码执行程序等工具的安全运行。

  • 人机协同带来安全性。Magentic-UI 在执行可能不可逆的作之前寻求用户批准,用户可以指定 Magentic-UI 需要批准的频率。此外,Magentic-UI 被沙盒化,以便浏览器和代码执行程序等工具的安全运行。

  • 从经验中学习(计划学习)。Magentic-UI 可以从以前的交互中学习并保存计划,以提高未来任务的任务完成率。

核心架构特点

Magentic-UI 是一个基于多智能体系统的人机协作网页任务自动化工具 README.md:69-73 。系统包含四个专门的智能体:

  • Orchestrator(决策中枢):负责与用户协同规划、决定何时请求用户反馈,并将子任务委派给其他智能体。

  • WebSurfer(网页浏览器):配备网页浏览器,可以点击、输入、滚动和访问页面。

  • Coder(编程器):配备 Docker 代码执行容器,可以编写和执行 Python 和 shell 命令。

  • FileSurfer(文件浏览器):配备文件转换工具,可以定位文件、转换为 markdown 格式并回答相关问题。

人机协作特点:

  • 协同规划:用户可以通过规划编辑界面与系统交互,添加、删除、编辑和重新生成步骤。

  • 执行控制:用户可以暂停计划执行并发送额外请求或反馈,也可以配置智能体操作是否需要批准。

  • 透明度:所有中间进度步骤都清晰地显示给用户。

技术特点

  • 基于 AutoGen 框架:扩展了 AutoGen 的多智能体能力,增加了专门的网页浏览功能。

  • Playwright 集成:通过 Playwright 提供真实的浏览器控制能力。

  • 内存系统:支持从以往任务中学习,可以检索和重用相关计划。

  • 多语言支持:主要设计和测试使用英语,其他语言性能可能有所不同。

对比维度传统AI智能体Magentic-UI
控制模式全自动或全手动分级可控自动化
透明度黑箱或有限日志交互式执行图谱
安全架构单一权限控制沙箱隔离+白名单
学习机制离线批量训练在线计划学习
人机交互单向指令传递协同规划与编辑
部署复杂度需要专业运维渐进式采用路径

🔗 参考连接

  • https://github.com/microsoft/magentic-ui

  • https://magnet-ui.netlify.app/

  • https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/?utm_source=ai-bot.cn

  • https://mp.weixin.qq.com/s/Bg200T6miNbh3z9RNsmYAA

http://www.dtcms.com/a/268634.html

相关文章:

  • 【Rust CLI项目】Rust CLI命令行处理csv文件项目实战
  • AI Tool Calling 实战——让 LLM 控制 Java 工具
  • java-Milvus 连接池(多key)与自定义端点监听设计
  • C++开源项目—2048.cpp
  • 部署MongoDB
  • 接口漏洞怎么抓?Fiddler 中文版 + Postman + Wireshark 实战指南
  • 记录一个关于Maven配置TSF的报错问题
  • 基于 Three.js 开发三维引擎-02动态圆柱墙体实现
  • Python中50个常用的内置函数(2/2)
  • 剑指offer第2版:动态规划+记忆化搜索
  • 回溯题解——子集【LeetCode】输入的视角(选或不选)
  • YOLOv11模型轻量化挑战:边缘计算设备部署优化方案
  • FastAPI依赖注入:构建高可维护API的核心理念与实战
  • Modbus_TCP 客户端低版本指令(归档)
  • Hadoop 分布式存储与计算框架详解
  • Web后端开发-请求响应
  • NLP:文本特征处理和回译数据增强法
  • Mac-右键用 VS Code 打开文件夹
  • 【Echarts】“折线+柱状”实现双图表-家庭用电量可视化【文章附完整代码】
  • 泛微虚拟视图-数据虚拟化集成
  • 从库函数到API接口,深挖不同语言背后的“封装”与“调用”思想
  • pytest通过pytest_runtest_makereport添加失败截图到Allure报告中
  • 常见问题与最佳实践——AI教你学Docker
  • 1-Kafka介绍及常见应用场景
  • 学习基于springboot秒杀系统-环境配置(接口封装,mybatis,mysql,redis(Linux))
  • 2025年全国青少年信息素养大赛图形化(Scratch)编程小学低年级组初赛样题答案+解析
  • 登山第二十六梯:单目3D检测一切——一只眼看世界
  • 【C++开源库使用】使用libcurl开源库发送url请求(http请求)去下载用户头像文件(附完整源码)
  • 【R语言】 在读取 CSV 或 Excel 文件时的标准输出
  • 自定义简单线性回归模型