browser-use | 智能浏览器工具,让AI像人类一样操作浏览器,实现网页自动化 | 网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持 | 为大语言模型服务的创新Python工具库 | GitHub |
Eko | Fellou AI推出的生产就绪型JavaScript框架,基于自然语言驱动创建智能代理 | 支持所有平台,提供统一便捷操作界面,将自然语言指令转化为复杂工作流程 | 自然语言处理(NLP)、任务分解与调度、多平台适配 | GitHub |
TEN Agent | 开源实时多模态AI代理框架,集成OpenAI Realtime API和RTC技术 | 语音文本图像多模态交互、天气查询、网络搜索、视觉识别、RAG能力、高性能实时通信 | 内置RTC能力,模块化设计,提供一站式服务,技术集成 | GitHub |
Magma | 微软开源多模态AI Agent基础模型,处理图像、视频、文本等数据,具备心理预测功能 | 自动处理图像、视频、文本等不同类型数据,控制实体机器人,提供实时帮助 | 视觉与大语言模型混合架构,视觉模块使用ConvNeXt | GitHub |
Nanobrowser | 开源AI网页自动化工具,基于多智能体系统实现复杂网页任务 | 多智能体系统(Planner、Navigator、Validator)、交互式侧边栏、任务自动化、多LLM支持 | 多智能体系统协同工作,灵活选择不同模型 | GitHub |
AI-Researcher | 港大开源自动化科学研究工具,基于LLM代理实现研究全流程自动化 | 文献综述、想法生成、算法设计与验证、结果分析和论文撰写 | 基于大型语言模型代理 | GitHub |
AppAgentX | 西湖大学新型自我进化式GUI代理框架,提升智能手机交互效率和智能性 | 自动归纳高效操作模式、减少重复计算、基于视觉的通用操作能力、支持复杂任务和跨应用操作 | 记录任务执行过程,结合记忆机制和进化机制,基于链式知识框架持续优化行为 | GitHub |
LangManus | 社区驱动的AI自动化框架,结合语言模型与专用工具 | 将语言模型与Web搜索、爬网和Python代码执行等任务的专用工具相结合 | 社区驱动,结合开源社区的出色工作 | GitHub |
autoMate | AI驱动的本地自动化助手开源项目,基于OmniParser | 自动操作计算机界面、智能理解屏幕内容、自主决策并行动、支持本地部署、多模型支持 | 利用大型语言模型完成复杂自动化流程,只需自然语言任务描述 | GitHub |
OpenManus | MetaGPT社区成员复刻的开源版Manus,直接在用户本地电脑上运行 | 即时反馈机制,实时更新任务执行进度、详细思考过程日志、文件生成即时通知 | 基于Python开发,结构简单明了,支持通过终端输入任务驱动智能体执行操作 | GitHub |
OWL | 开源界GAIA性能天花板,全自动多Agent打工神器 | 在GAIA Benchmark上性能优异,开源灵活度高,技术框架、工作流程、核心能力全公开共享 | 深度复刻Manus技术路线,结合多种工具和步骤实现全自动多Agent任务执行 | GitHub |
OmniParser V2 | 微软开源的屏幕解析工具,使LLM能够作为计算机智能代理进行GUI自动化 | 帮助计算机理解和自动执行图形界面操作,识别屏幕上的可交互元素 | 基于纯视觉的GUI代理,比V1版本更精准快速,支持多种操作系统和应用程序图标识别 | GitHub |