【AI News | 20250519】每日AI进展
AI Repos
1、deepdrone
DeepDrone是一款基于smolagents框架的无人机聊天代理,集成DroneKit实现无人机分析与操作。用户可通过自然语言聊天与无人机助手交互,实现飞行路径和传感器数据可视化、基于飞行时长的维护建议、任务规划以及真实的无人机控制,包括起降、GPS导航、返航、航点任务执行和电池位置监控。DeepDrone支持Python 3.10+,需安装依赖并进行兼容性补丁。可通过终端或聊天界面连接真实或模拟无人机,并提供故障排除指南。核心技术栈包括smolagents、Hugging Face Qwen2.5-Coder、DroneKit-Python和Streamlit等。
2、workflow-use
Workflow Use是一个尚处于早期开发的开源项目,旨在通过记录一次浏览器交互并无限次重用来创建和执行确定性工作流,若步骤失败则回退至Browser Use。用户只需展示操作流程,工具即可自动生成工作流,并能智能过滤噪音、提取表单变量。其愿景是实现计算机一次学习,永久自动执行。未来计划包括改进LLM回退、实现自愈功能、增强LLM步骤支持、步骤间数据传递、暴露为MCP工具以及利用Browser Use自动创建工作流等。该项目提供CLI和Python接口,方便用户创建和运行工作流。
3、open-agent-platform
Open Agent Platform是一个基于Web的无代码平台,用于创建、管理和交互LangGraph代理。它通过直观界面简化代理构建,无需技术专长,同时为开发者提供高级功能。平台重点支持通过LangConnect进行RAG集成,并能通过MCP服务器连接外部工具,还具备代理监管器协调多代理协同工作。内置身份验证和访问控制,用户可通过丰富的UI轻松配置代理。OAP本身不需独立后端服务器,但RAG功能依赖LangConnect服务器。所有OAP代理必须是部署在LangGraph Platform上的LangGraph代理。
4、muscle-mem
Muscle Memory是一个Python SDK,作为AI代理的行为缓存,记录代理解决任务的工具调用模式,并在再次遇到相同任务时确定性地回放这些学习到的轨迹,若检测到边缘情况则回退到代理模式。其目标是减少LLM在重复任务中的使用,从而提高速度、降低变异性和消除token成本。核心在于缓存验证,通过Checks判断环境是否与缓存匹配,安全地重用工具。开发者可以装饰工具并附加Checks进行缓存验证。Muscle Memory不属于新的代理框架,而是集成到现有代理中。
5、Text2img-Cloudflare-Workers
Text2img-Cloudflare-Workers是基于Cloudflare Workers AI服务构建的免费在线文本生成图像网页应用,无需服务器部署。它利用Cloudflare AI提供高质量文生图模型,支持FLUX/SDXL等,并提供高级选项设置。用户可通过简单操作,输入提示词并选择模型生成图像,还可调整参数和切换主题。支持设置访问密码进行私有化部署。Cloudflare Workers免费版有请求限制,图像生成速度受模型和参数影响。
6、manim-mcp-server
Manim MCP Server是一个MCP服务器,能够执行Manim Python脚本并返回生成的动画视频。它允许用户发送Manim代码,服务器会在可见的媒体文件夹中保存输出,并可选择清理临时文件。该服务器通过环境变量进行配置,易于部署。安装需要Python、Manim和MCP。集成了Claude的配置方法,用户需要在claude_desktop_config.json中添加服务器信息,并提供Python和Manim可执行文件的路径。该项目遵循MIT许可证,欢迎贡献。
7、telegram_link_summarizer_agent
Telegram Link Summarizer Agent是一个Telegram机器人,能够总结聊天中发送的各种链接,包括网页、PDF、Twitter/X和LinkedIn帖子,并对YouTube链接进行特殊处理。它利用LangGraph编排多个工具和LLM,使用BAML进行路由和摘要生成,Tavily进行网页内容提取,PyMuPDF处理PDF,twitterapi.io获取推文,Playwright和AgentQL提取YouTube和LinkedIn内容。该机器人通过FastAPI和Uvicorn运行,提供Docker部署和Google Cloud Run部署指南,需要配置API密钥和Telegram机器人token等环境变量。
8、BLIP3o
BLIP3-o是一个统一的多模态模型,结合了自回归模型的推理和指令跟随能力以及扩散模型的生成能力。它通过直接扩散语义丰富的CLIP图像特征,实现了强大的图像理解和生成架构,性能优于以往扩散VAE特征或原始像素的方法。BLIP3-o完全开源,包括训练数据、训练方案、模型权重和代码。它在图像理解和生成任务上表现出色,并提供了在线Demo和模型Checkpoint。该模型支持文本到文本、图像到文本、文本到图像、图像到图像以及多任务训练,并支持多种图像生成方法和自回归主干网络,推荐使用Qwen-2.5-VL。训练数据采用Webdataset和Json格式加载。
AI News
1、Google搜索推出AI Mode实验:文本、语音、图像智能问答新体验
Google搜索推出AI Mode实验,为用户提供全新的智能问答体验,支持文本、语音和图像提问。AI不仅能提供答案,还能根据后续问题深入探索,并提供相关网页链接。该功能目前仅向美国18岁以上用户开放,需加入候补名单并开启搜索历史记录。Google鼓励用户通过反馈帮助改进AI Mode,并重视用户隐私,采取措施保护数据安全。用户可以管理AI Mode历史记录。
2、谷歌NotebookLM推出Sparks视频概览:Gemini与Deep Research加持,AI生成1-3分钟短视频
谷歌NotebookLM即将推出“Sparks”视频概览功能,利用Gemini2.5和Deep Research能力将文档和报告转化为1-3分钟短视频,其中10%内容由AI生成,融合文本、图像和音频。用户可通过Gemini chatbot或Deep Research报告一键生成,适用于学习、报告分享和内容营销等场景,预计将大幅提升内容创作效率。该创新引发社区热议,被认为是AI内容生成的下一波浪潮,但在版权和生成质量方面仍待用户检验。
3、GenSpark推出全球首个Agentic AI下载代理,革新文件管理与信息处理
GenSpark发布全球首个Agentic AI下载代理及AI Drive功能,用户仅需自然语言指令即可完成文件搜索、下载和整理等复杂任务。该代理支持多种文件类型批量下载,并智能分类存储至AI Drive,用户还可在AI Drive中通过AI进一步处理文件,如生成摘要或提取关键信息。GenSpark的Agentic Download Agent具备强大的自动化和智能化特性,能透明显示操作逻辑,显著提升信息收集和整理效率,尤其适用于研究人员、内容创作者和中小企业主。
4、ChatGPT或将整合MCP协议,赋能企业接入多元AI服务
据爆料,OpenAI正在测试“连接器设置”新功能,预示ChatGPT可能支持MCP协议。MCP由Anthropic开发,旨在统一LLM与外部系统的交互,如同AI应用的“USB-C接口”,使AI助手能通过受控接口访问数据,执行表格列出、数据读取和SQL查询等操作。此举对企业意义重大,能将内部工具与ChatGPT连接,实现数据共享和工作流程优化。用户在测试版中已可自定义添加工具,预计OpenAI将在近期正式推出此功能,届时ChatGPT将为企业提供更强大和个性化的支持。
5、阿里通义实验室推出ZeroSearch:大模型无需API自主模拟搜索
阿里通义实验室发布ZeroSearch框架,使大语言模型无需实际搜索引擎即可自我模拟搜索,提升推理能力。ZeroSearch通过强化学习和少量标注数据微调模型,使其能生成有用和干扰文档,模拟搜索环境,并采用课程式学习逐步提升模型抗噪能力和推理水平。实验表明,ZeroSearch在单跳和多跳问答任务中表现优异,为大模型自我学习提供新思路,降低训练成本,有望扩大LLM应用范围。
6、ListenHub AI播客生成器上线:快速生成个性化播客,颠覆收听体验
ListenHub是一款全新的AI播客生成工具,支持中英文,用户可通过话题、链接或文件快速生成个性化播客,耗时仅1-5分钟。其核心AI技术能生成自然流畅的对话,打破传统播客制作壁垒。ListenHub提供免费和高级会员选项,高级版支持更多生成次数和高品质音效。该工具注重移动端体验,用户可随时随地制作收听。用户反馈积极,称其高效便捷,声音真实。ListenHub的推出为播客行业带来新活力,有望成为用户个性化内容消费的新选择。
7、Qwen发布WorldPM偏好建模模型系列:大规模训练提升模型优化能力
阿里巴巴Qwen团队推出全新的WorldPM偏好建模模型系列,包括WorldPM-72B及其衍生版本。该模型通过对1500万条偏好数据的大规模训练,验证了偏好建模的规模化定律,能学习统一的偏好表示,显著提升模型在监督学习中的表现。WorldPM-72B专为评估和优化其他模型输出而设计,尤其在捕捉人类偏好的场景中表现出色,是强化学习和监督微调的理想工具。Qwen已在Hugging Face上开源WorldPM系列模型,供全球开发者免费使用,这被誉为开源模型生态的新里程碑。
8、Ollama发布全新多模态AI引擎:提升推理精度与图像处理能力
Ollama推出独立于llama.cpp的全新多模态AI引擎,基于Golang开发,旨在显著提高本地推理精度和增强大型图像处理能力。新引擎引入图像处理元数据、KVCache优化和图像缓存等创新技术,提升内存管理和资源利用效率,尤其适用于复杂模型如Llama4Scout。此外,引擎还支持分块注意力机制和2D旋转嵌入,灵活处理图像和文本数据。Ollama此举旨在推动本地AI推理性能,为开发者和研究者带来更强大的AI应用潜力。
9、Minion-Agent:集成浏览器操作与MCP的自动化智能任务框架
Minion-Agent是一款备受关注的AI智能体框架,集成了浏览器操作、MCP协议、自动工具调用、任务规划和深度研究等多项功能。该框架能根据用户指令自主完成复杂任务流程,例如在短时间内收集大量文章并生成分析报告,或自动提取网站信息生成价格比较表。其核心优势在于模拟人类浏览器操作、支持MCP连接外部工具、自动规划任务和进行深度研究。Minion-Agent因其灵活性和强大的自动化能力,适用于科研、市场调研、媒体和个人生产力等多种场景。
10、B站开源AniSora动漫视频生成模型,一键打造多样风格动画
B站团队开源了动漫视频生成模型AniSora,旨在填补自然视频生成模型在动漫领域的不足。AniSora通过超千万条高质量数据训练,引入时空掩码模块实现可控生成,支持图像生成视频、帧插值和局部图像引导等动画制作功能。其在人物和运动一致性方面达到SOTA水平。B站展示了角色头发自然飘动、人物缓缓走向远方等生动示例。AniSora已在GitHub等平台开源,有望为动漫创作带来更多创新。
11、OpenAI发布全新编程智能体Codex,30分钟完成数天开发任务
OpenAI推出全新AI编程助手Codex,由优化的codex-1模型驱动,专为软件工程设计。Codex具备多任务并行处理能力,能在30分钟内完成以往数天的工作,预示人人皆可轻松开发应用。Codex与GitHub无缝集成,可高效构建模块、解答代码库问题、修复漏洞、提交合并请求和自动测试。通过强化学习,Codex生成的代码符合人类偏好,基准测试表现优异,被誉为“10x工程师”。早期合作企业反馈积极,认为Codex能显著提升开发效率,为编程带来革命性变革。