当前位置：首页 > news >正文

【AI News | 20250723】每日AI进展

news 2025/7/25 9:05:25

AI Repos

1、qwen-code
Qwen Code是基于Gemini CLI，并为Qwen3-Coder模型优化的一款命令行AI工作流工具。它旨在简化开发者的日常任务，提供代码理解、编辑和工作流自动化等核心功能。Qwen Code通过增强的解析器和工具支持，能够处理超大代码库，自动化诸如拉取请求、复杂变基等操作。该工具安装简便，可通过命令行或npm全局安装，需要配置Qwen API密钥以启动服务。
在这里插入图片描述

2、higgs-audio
Higgs Audio v2是一款开源的音频基础模型，通过在超过1000万小时的音频数据上进行预训练，展现出卓越的表现力。该模型在EmergentTTS-Eval评估中，于情感和提问类别上超越了gpt-4o-mini-tts，并在多个传统TTS基准上达到了最先进的性能。其独创能力包括生成多语种多说话人对话、自动韵律调整、声线克隆哼唱及同时生成语音和背景音乐。

3、ConvertX
ConvertX是一款基于TypeScript、Bun和Elysia的自托管在线文件转换服务。它支持超过一千种文件格式的转换，并具备多文件批量处理、密码保护和多账户管理等功能。用户可以轻松通过Docker进行部署，并通过环境变量进行灵活配置，如允许HTTP连接、设置文件自动删除时间等。ConvertX支持多种转换器，如FFmpeg、ImageMagick和Pandoc，为个人和团队提供了高效且安全的文件处理解决方案。

AI News

1、快手与上海交通大学联合推出多模态生成理解模型Orthus
在国际机器学习大会（ICML）上，快手与上海交通大学合作推出的多模态生成理解模型Orthus正式开源。Orthus基于自回归Transformer架构，能在图文之间自如转换，展现出卓越的计算效率与强大的学习能力。在多项指标上超越现有模型，特别是在文生图生成的GenEval指标上表现优异。Orthus的架构设计巧妙，有效解耦了图像细节的建模和文本特征的表达，为多模态生成模型的发展带来新的可能性。

2、昆仑万维发布Mureka V7与TTS V1
昆仑万维集团于7月23日发布了Mureka V7音乐模型和Mureka TTS V1音频模型，标志着AI音乐生成领域的重大进步。Mureka V7通过高效的音乐创作能力和卓越的音乐品质，简化了传统音乐制作流程。Mureka TTS V1则支持Voice Design音色设计能力，提供个性化音色定制。这两款模型的发布展示了昆仑万维在AI音乐生成领域的深厚实力，预示着AI音乐生成向’人性化’转变。

3、Meta推出AU-Net架构：革新大语言模型文本处理方式
Meta研究团队推出的AU-Net架构，通过自回归的U-Net结构，直接从原始字节学习，动态组合字节形成多层次的序列表示，解决了传统分词技术的局限性。AU-Net采用收缩和扩张路径，有效融合宏观语义信息和局部细节，提高文本生成的连贯性与准确性，为大语言模型的发展提供了新的思路。

4、谷歌Gemini2.5Flash-Lite模型正式发布：速度最快、成本最低的AI新选择
谷歌最新发布的Gemini2.5Flash-Lite模型已进入稳定版本，以其最快的速度和最低的成本成为AI领域的新星。该模型支持高达100万token的上下文，定价策略极具竞争力，输入和输出token的费用分别为每百万0.10美元和0.40美元，音频输入价格较预览版降低40%。在多项基准测试中表现优异，支持多种高级功能，为开发者提供了高效且经济实惠的选择。

5、Latent Labs推出AI模型LatentX
Latent Labs宣布推出其全新网页AI模型LatentX，旨在改变蛋白质设计的游戏规则。该模型在蛋白质结合的实验结果中已达到行业领先水平，能够创造出全新的分子设计，精确到原子结构，加速新疗法的开发。与AlphaFold的蛋白质结构预测功能不同，LatentX能生成新蛋白质。Latent Labs的商业模式是将其模型授权给外部组织，未来计划逐步引入高级功能并收取费用。

6、Mixus推出创新AI代理平台
斯坦福大学新创公司Mixus推出了一款创新的AI代理平台，旨在通过邮件或Slack与AI代理互动，解决当前AI代理在决策失误、信息错误、团队协作和隐私保护方面的问题。该平台以其用户友好的设计和团队共享记忆功能脱颖而出，能够与多种工具集成，如Gmail和Jira，提升工作效率和协作能力。

7、谷歌Gemini2.5AI模型推出’对话式图像分割’功能
谷歌近日为其Gemini2.5AI模型推出了创新的’对话式图像分割’功能，该技术允许用户通过自然语言提示直接分析和突出显示图像内容，超越了传统图像分割的局限。Gemini现在能够理解并响应更复杂、更具语义的指令，包括关系查询、基于逻辑的指令和抽象概念识别。此外，该功能支持多语言提示，并在图像编辑、工作场所安全和保险行业等多个领域展现出广泛的应用潜力。开发者可通过Gemini API直接访问此功能，无需特殊模型。

8、苹果iOS26 Beta4发布：Liquid Glass界面更新与AI新闻摘要功能回归
苹果公司本周二推出了iOS26的第四个开发者测试版，引入了Liquid Glass界面的细微变化和重新推出的AI驱动新闻通知摘要功能。此次更新还包括新的“欢迎”启动画面、Siri的AI新闻摘要和优先级选择，以及全新设计的相机应用。苹果此前因BBC的投诉暂停了AI新闻摘要功能，现已加入警告提示用户核实信息。此外，Beta4还增加了新的动态壁纸和CarPlay壁纸，以及其他系统的同步更新。