当前位置: 首页 > news >正文

【AI News | 20250513】每日AI进展

AI Repos

1、iap-diffusion-labs
从零开始带我们构建完整的扩散模型。通过三个精心设计的实验练习,循序渐进地引导我们实现流匹配和扩散模型,从基础 SDE 到条件图像生成,每一步都有详尽指导和完整代码,让复杂理论简单易懂。主要内容:全面讲解流匹配和扩散模型的数学基础和理论框架;三个循序渐进的实验练习,从零构建完整的图像生成扩散模型;包含详细的课程笔记、幻灯片和操作指南,自学友好;覆盖图像、视频、分子结构等多种数据模态的生成原理;配套 Colab 笔记本环境,无需复杂环境配置。学习该课程需要基本的线性代数、概率论和 Python 基础,适合想要深入了解生成式 Ai 底层原理的开发者。
在这里插入图片描述

2、ragmate
Ragmate 是一款本地运行的检索增强生成(RAG)服务器,专为代码编辑器设计(目前支持 JetBrains)。它能扫描代码库,构建本地上下文索引,并连接到任何兼容 OpenAI 的 LLM,实现上下文感知的代码生成。Ragmate 具有实时文件更改跟踪和自动重索引功能,完全本地化运行,确保代码不会离开用户的机器。通过简单的 Docker Compose 配置和 JetBrains AI Assistant 设置,开发者即可使用 Ragmate 提供的智能代码补全功能。未来计划支持 VS Code 和更多 LLM 集成。

AI News

1、ChatGPT 新增集成微软 OneDrive 和 SharePoint 功能,提升企业数据访问效率
OpenAI 近日面向 ChatGPT Plus、Pro 和 Team 用户(部分地区除外)推出了与微软 OneDrive 和 SharePoint 的深度集成功能。用户现在可以直接通过 ChatGPT 实时访问云端文件,只需输入问题,ChatGPT 即可读取、分析并提供所需信息,例如财务总结或销售数据。用户在 ChatGPT 的“深度研究”选项中选择 SharePoint 并授权登录后,即可选择访问的文件夹,并在设置中管理连接。此功能旨在提高企业用户的工作效率,简化数据访问和分析流程。

2、全球首个设计 Agent Lovart 引爆设计界,端到端能力颠覆传统工作流
全球首个 AI 设计 Agent Lovart 横空出世,凭借自然语言驱动的全链路设计、多模态模型调度、与现有工具无缝集成、智能预测交互以及品牌一致性与趋势适应等强大功能,迅速席卷全球设计领域,beta 测试阶段已获极高用户评价。Lovart 由 Alexander 领衔的 AI 专家和设计领域资深人士组成的团队打造,旨在将 AI 从单一工具转变为设计师的“创意搭档”,实现从灵感到成品的完整设计流程自动化。尽管面临竞争和用户教育等挑战,Lovart 凭借其创新能力和广泛应用前景,有望成为设计领域的变革引擎。

3、Claude 系统提示词意外泄露,揭示顶级 AI 模型内部运作机制引热议
Anthropic 公司开发的强大语言模型 Claude 近日遭遇系统提示词泄露事件,这份长达 25000 个 Token 的详细指令集意外公开,引发 AI 行业广泛关注。系统提示词作为 AI 与用户互动前的初始指令和行为框架,定义了模型的沟通风格、安全边界和输出规范。此次泄露内容丰富,涵盖角色塑造、安全伦理、版权合规、工具集成和准确性要求等。这不仅暴露了顶级 AI 系统的复杂性,也引发了关于 AI 透明度、安全性和知识产权等关键议题的讨论,对 Anthropic 构成了严峻挑战。

4、昆仑万维开源 Matrix-Game 大模型,赋能游戏世界智能生成与精准控制
昆仑万维开源了首个工业界十亿级参数空间智能大模型 Matrix-Game,专为开放式环境中的高质量生成和精确控制设计,尤其支持《我的世界》。该模型包含自主构建的大规模 Minecraft 视频数据集、利用扩散模型技术的主模型(可根据用户操作生成连贯可控互动视频),以及全新的游戏交互世界评估标准 GameWorld Score。Matrix-Game 实现了在多种 Minecraft 场景中的可控生成和自回归式长视频生成,为沉浸式游戏体验和创意内容生成提供了强大支持。

5、OpenVision 发布新一代开源视觉编码器,性能媲美并超越 CLIP 与 SigLIP
加州大学圣克鲁兹分校推出了开源视觉编码器系列 OpenVision,旨在替代 CLIP 和 SigLIP 等模型。OpenVision 提供 26 种不同参数规模的模型,适用于服务器和边缘计算,支持自适应补丁大小,并在多模态基准测试中表现出色。其采用渐进式分辨率训练策略,训练效率更高。OpenVision 还优化了与小型语言模型的结合,构建了低参数量的多模态模型。该项目的开源和模块化设计为企业提供了高性能、安全且可定制的视觉编码解决方案。

6、微软宣布终止 Bing Search API 服务,建议开发者转向 Azure AI Agent Service
微软宣布将于 2025 年 8 月 11 日终止公共 Bing Search API 服务,包括 Search v7 和 Custom Search 的所有版本,影响所有用户。微软建议开发者转向 Azure AI Agent Service 中的 “Grounding with Bing Search” 功能,该功能专为 AI 智能体提供实时网络数据。然而,这一转变要求开发者适应新的服务架构和成本结构,并需注意数据处理合规性问题,因为搜索查询和资源密钥将超出 Azure 标准合规边界。微软建议用户立即审查其 Bing Search API 使用情况并规划迁移。

7、阿里 MNN 更新移动端多模态 AI 应用,支持 Qwen-2.5,文本图像语音视频全覆盖
阿里巴巴开源项目 MNN 发布了 MnnLlmApp 最新版本,新增对 Qwen-2.5-Omni-3B 和 7B 模型的支持,实现移动端本地运行,支持文本到文本、图像到文本、音频到文本和文本到图像等多种模态任务。该应用基于阿里云 Qwen 团队的 Thinker-Talker 架构,在 CPU 推理上表现出色,预填充速度超越 llama.cpp 8.6 倍,解码速度快 2.3 倍。MnnLlmApp 完全本地运行,注重数据隐私,并广泛支持主流开源模型,为开发者探索移动端多模态 AI 提供了理想平台。

8、MCPHub 发布,简化 MCP 服务器接入,兼容 OpenAI、LangChain 等主流 AI 框架
MCPHub 正式发布,旨在简化 AI 服务中 Model Context Protocol (MCP) 服务器的集成流程。作为可嵌入式解决方案,MCPHub 提供统一的配置、管理与连接方式,兼容 OpenAI Agents、LangChain 和 Autogen 等主流 AI 框架。其主要功能包括统一管理接口、自动化配置、多样化配置支持、灵活安装方式、多传输协议适配、多框架集成、智能工具发现与缓存以及独立环境隔离。MCPHub 通过将连接和配置流程自动化,显著降低 AI 应用构建难度,提升开发效率。

9、字节跳动开源统一图像定制框架 DreamO,集成换装、换脸、风格迁移等多功能
字节跳动在 Hugging Face 开源了图像定制框架 DreamO,集成了图像换装、换脸、造型调整、风格迁移和多主体组合等功能。DreamO 基于 DiT 模型,通过 IP、ID 和 Style 等参数实现精准编辑和风格迁移,并支持多主体融合。该框架的一站式设计降低了使用门槛,开源特性增强了其影响力,有望在创意设计、电商广告和社交媒体等领域广泛应用,成为 AI 图像编辑领域的重要工具。

10、ChatGPT Deep Research 新增 PDF 导出功能,完整保留格式与引文,提升研究效率
ChatGPT 的 Deep Research 功能正式上线 PDF 导出,用户可一键将研究报告(包括表格、图像、链接引文和来源)导出为格式化文档,新旧报告均适用。此功能显著提升了报告的分享与存档效率,尤其满足了企业用户对信息可追溯性的需求,有助于无缝集成传统工作流。OpenAI 此次更新旨在增强 Deep Research 在 AI 研究助手市场的竞争力,尤其在工作流整合性方面,标志着 AI 研究工具向实用商业应用的重大转变。

相关文章:

  • Ubuntu 22.04搭建OpenStreeMap地址解析服务(保姆级教程)
  • 跨境电商定价革命:亚马逊“逆向提价“策略背后的价值重构逻辑
  • Readiris PDF:高效文档管理与OCR识别工具
  • CMake基础
  • Linux上的rm和srm 命令
  • Springboot实现重试机制
  • ebook2audiobook开源程序使用动态 AI 模型和语音克隆将电子书转换为带有章节和元数据的有声读物。支持 1,107+ 种语言
  • 从新手到高手:全面解析 AI 时代的「魔法咒语」——Prompt
  • 鸿蒙 PC 发布之后,想在技术上聊聊它的未来可能
  • talk-linux 不同用户之间终端通信
  • 攻防靶场——没有Web怎么打
  • 关于maven的依赖下不下来的问题
  • 加速度策略思路
  • WebPageTest 多地域测试
  • 描述性统计工具 - AxureMost 落葵网
  • 【手表维修专用软件】佳易王手表钟表保养维护服务跟踪管理系统:保养维护登记,维修进度跟踪!#手表维修管理系统教程 #铭表设备维修记录软件#操作简单软件下载
  • EasyOps®5月热力焕新:三大核心模块重构效能边界
  • NLTK进行文本分类和词性标注
  • ai讲vite的vite.config.ts的server配置
  • 2025.5.13山东大学软件学院计算机图形学期末考试回忆版本
  • 气候多米诺:厄尔尼诺与东南亚跨境害虫或威胁中国粮食安全
  • 经济日报整版聚焦:上海构建法治化营商环境,交出高分答卷
  • 多地警务新媒体整合:关停交警等系统账号,统一信息发布渠道
  • 董军同法国国防部长举行会谈
  • 最高降价三成,苹果中国iPhone开启大促销,能拉动多少销量?
  • 珠峰窗口期5月开启 普通人登一次有多烧钱?