当前位置：首页 > news >正文

学习111

news 2025/10/21 0:44:32

                    
                        
                    
                    项目名称项目简介主要功能技术原理GitHub地址
browser-use智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持为大语言模型服务的创新Python工具库GitHub
EkoFellou AI推出的生产就绪型JavaScript框架，基于自然语言驱动创建智能代理支持所有平台，提供统一便捷操作界面，将自然语言指令转化为复杂工作流程自然语言处理（NLP）、任务分解与调度、多平台适配GitHub
TEN Agent开源实时多模态AI代理框架，集成OpenAI Realtime API和RTC技术语音文本图像多模态交互、天气查询、网络搜索、视觉识别、RAG能力、高性能实时通信内置RTC能力，模块化设计，提供一站式服务，技术集成GitHub
Magma微软开源多模态AI Agent基础模型，处理图像、视频、文本等数据，具备心理预测功能自动处理图像、视频、文本等不同类型数据，控制实体机器人，提供实时帮助视觉与大语言模型混合架构，视觉模块使用ConvNeXtGitHub
Nanobrowser开源AI网页自动化工具，基于多智能体系统实现复杂网页任务多智能体系统（Planner、Navigator、Validator）、交互式侧边栏、任务自动化、多LLM支持多智能体系统协同工作，灵活选择不同模型GitHub
AI-Researcher港大开源自动化科学研究工具，基于LLM代理实现研究全流程自动化文献综述、想法生成、算法设计与验证、结果分析和论文撰写基于大型语言模型代理GitHub
AppAgentX西湖大学新型自我进化式GUI代理框架，提升智能手机交互效率和智能性自动归纳高效操作模式、减少重复计算、基于视觉的通用操作能力、支持复杂任务和跨应用操作记录任务执行过程，结合记忆机制和进化机制，基于链式知识框架持续优化行为GitHub
LangManus社区驱动的AI自动化框架，结合语言模型与专用工具将语言模型与Web搜索、爬网和Python代码执行等任务的专用工具相结合社区驱动，结合开源社区的出色工作GitHub
autoMateAI驱动的本地自动化助手开源项目，基于OmniParser自动操作计算机界面、智能理解屏幕内容、自主决策并行动、支持本地部署、多模型支持利用大型语言模型完成复杂自动化流程，只需自然语言任务描述GitHub
OpenManusMetaGPT社区成员复刻的开源版Manus，直接在用户本地电脑上运行即时反馈机制，实时更新任务执行进度、详细思考过程日志、文件生成即时通知基于Python开发，结构简单明了，支持通过终端输入任务驱动智能体执行操作GitHub
OWL开源界GAIA性能天花板，全自动多Agent打工神器在GAIA Benchmark上性能优异，开源灵活度高，技术框架、工作流程、核心能力全公开共享深度复刻Manus技术路线，结合多种工具和步骤实现全自动多Agent任务执行GitHub
OmniParser V2微软开源的屏幕解析工具，使LLM能够作为计算机智能代理进行GUI自动化帮助计算机理解和自动执行图形界面操作，识别屏幕上的可交互元素基于纯视觉的GUI代理，比V1版本更精准快速，支持多种操作系统和应用程序图标识别GitHub

                

项目名称	项目简介	主要功能	技术原理	GitHub地址
browser-use	智能浏览器工具，让AI像人类一样操作浏览器，实现网页自动化	网页浏览与操作、多标签页管理、视觉识别与内容提取、操作记录与重复执行、自定义动作支持、主流LLM模型支持	为大语言模型服务的创新Python工具库	GitHub
Eko	Fellou AI推出的生产就绪型JavaScript框架，基于自然语言驱动创建智能代理	支持所有平台，提供统一便捷操作界面，将自然语言指令转化为复杂工作流程	自然语言处理（NLP）、任务分解与调度、多平台适配	GitHub
TEN Agent	开源实时多模态AI代理框架，集成OpenAI Realtime API和RTC技术	语音文本图像多模态交互、天气查询、网络搜索、视觉识别、RAG能力、高性能实时通信	内置RTC能力，模块化设计，提供一站式服务，技术集成	GitHub
Magma	微软开源多模态AI Agent基础模型，处理图像、视频、文本等数据，具备心理预测功能	自动处理图像、视频、文本等不同类型数据，控制实体机器人，提供实时帮助	视觉与大语言模型混合架构，视觉模块使用ConvNeXt	GitHub
Nanobrowser	开源AI网页自动化工具，基于多智能体系统实现复杂网页任务	多智能体系统（Planner、Navigator、Validator）、交互式侧边栏、任务自动化、多LLM支持	多智能体系统协同工作，灵活选择不同模型	GitHub
AI-Researcher	港大开源自动化科学研究工具，基于LLM代理实现研究全流程自动化	文献综述、想法生成、算法设计与验证、结果分析和论文撰写	基于大型语言模型代理	GitHub
AppAgentX	西湖大学新型自我进化式GUI代理框架，提升智能手机交互效率和智能性	自动归纳高效操作模式、减少重复计算、基于视觉的通用操作能力、支持复杂任务和跨应用操作	记录任务执行过程，结合记忆机制和进化机制，基于链式知识框架持续优化行为	GitHub
LangManus	社区驱动的AI自动化框架，结合语言模型与专用工具	将语言模型与Web搜索、爬网和Python代码执行等任务的专用工具相结合	社区驱动，结合开源社区的出色工作	GitHub
autoMate	AI驱动的本地自动化助手开源项目，基于OmniParser	自动操作计算机界面、智能理解屏幕内容、自主决策并行动、支持本地部署、多模型支持	利用大型语言模型完成复杂自动化流程，只需自然语言任务描述	GitHub
OpenManus	MetaGPT社区成员复刻的开源版Manus，直接在用户本地电脑上运行	即时反馈机制，实时更新任务执行进度、详细思考过程日志、文件生成即时通知	基于Python开发，结构简单明了，支持通过终端输入任务驱动智能体执行操作	GitHub
OWL	开源界GAIA性能天花板，全自动多Agent打工神器	在GAIA Benchmark上性能优异，开源灵活度高，技术框架、工作流程、核心能力全公开共享	深度复刻Manus技术路线，结合多种工具和步骤实现全自动多Agent任务执行	GitHub
OmniParser V2	微软开源的屏幕解析工具，使LLM能够作为计算机智能代理进行GUI自动化	帮助计算机理解和自动执行图形界面操作，识别屏幕上的可交互元素	基于纯视觉的GUI代理，比V1版本更精准快速，支持多种操作系统和应用程序图标识别	GitHub