【AI News | 20250723】每日AI进展
AI Repos
1、qwen-code
Qwen Code是基于Gemini CLI,并为Qwen3-Coder模型优化的一款命令行AI工作流工具。它旨在简化开发者的日常任务,提供代码理解、编辑和工作流自动化等核心功能。Qwen Code通过增强的解析器和工具支持,能够处理超大代码库,自动化诸如拉取请求、复杂变基等操作。该工具安装简便,可通过命令行或npm全局安装,需要配置Qwen API密钥以启动服务。
2、higgs-audio
Higgs Audio v2是一款开源的音频基础模型,通过在超过1000万小时的音频数据上进行预训练,展现出卓越的表现力。该模型在EmergentTTS-Eval评估中,于情感和提问类别上超越了gpt-4o-mini-tts,并在多个传统TTS基准上达到了最先进的性能。其独创能力包括生成多语种多说话人对话、自动韵律调整、声线克隆哼唱及同时生成语音和背景音乐。
3、ConvertX
ConvertX是一款基于TypeScript、Bun和Elysia的自托管在线文件转换服务。它支持超过一千种文件格式的转换,并具备多文件批量处理、密码保护和多账户管理等功能。用户可以轻松通过Docker进行部署,并通过环境变量进行灵活配置,如允许HTTP连接、设置文件自动删除时间等。ConvertX支持多种转换器,如FFmpeg、ImageMagick和Pandoc,为个人和团队提供了高效且安全的文件处理解决方案。
AI News
1、快手与上海交通大学联合推出多模态生成理解模型Orthus
在国际机器学习大会(ICML)上,快手与上海交通大学合作推出的多模态生成理解模型Orthus正式开源。Orthus基于自回归Transformer架构,能在图文之间自如转换,展现出卓越的计算效率与强大的学习能力。在多项指标上超越现有模型,特别是在文生图生成的GenEval指标上表现优异。Orthus的架构设计巧妙,有效解耦了图像细节的建模和文本特征的表达,为多模态生成模型的发展带来新的可能性。
2、昆仑万维发布Mureka V7与TTS V1
昆仑万维集团于7月23日发布了Mureka V7音乐模型和Mureka TTS V1音频模型,标志着AI音乐生成领域的重大进步。Mureka V7通过高效的音乐创作能力和卓越的音乐品质,简化了传统音乐制作流程。Mureka TTS V1则支持Voice Design音色设计能力,提供个性化音色定制。这两款模型的发布展示了昆仑万维在AI音乐生成领域的深厚实力,预示着AI音乐生成向’人性化’转变。
3、Meta推出AU-Net架构:革新大语言模型文本处理方式
Meta研究团队推出的AU-Net架构,通过自回归的U-Net结构,直接从原始字节学习,动态组合字节形成多层次的序列表示,解决了传统分词技术的局限性。AU-Net采用收缩和扩张路径,有效融合宏观语义信息和局部细节,提高文本生成的连贯性与准确性,为大语言模型的发展提供了新的思路。
4、谷歌Gemini2.5Flash-Lite模型正式发布:速度最快、成本最低的AI新选择
谷歌最新发布的Gemini2.5Flash-Lite模型已进入稳定版本,以其最快的速度和最低的成本成为AI领域的新星。该模型支持高达100万token的上下文,定价策略极具竞争力,输入和输出token的费用分别为每百万0.10美元和0.40美元,音频输入价格较预览版降低40%。在多项基准测试中表现优异,支持多种高级功能,为开发者提供了高效且经济实惠的选择。
5、Latent Labs推出AI模型LatentX
Latent Labs宣布推出其全新网页AI模型LatentX,旨在改变蛋白质设计的游戏规则。该模型在蛋白质结合的实验结果中已达到行业领先水平,能够创造出全新的分子设计,精确到原子结构,加速新疗法的开发。与AlphaFold的蛋白质结构预测功能不同,LatentX能生成新蛋白质。Latent Labs的商业模式是将其模型授权给外部组织,未来计划逐步引入高级功能并收取费用。
6、Mixus推出创新AI代理平台
斯坦福大学新创公司Mixus推出了一款创新的AI代理平台,旨在通过邮件或Slack与AI代理互动,解决当前AI代理在决策失误、信息错误、团队协作和隐私保护方面的问题。该平台以其用户友好的设计和团队共享记忆功能脱颖而出,能够与多种工具集成,如Gmail和Jira,提升工作效率和协作能力。
7、谷歌Gemini2.5AI模型推出’对话式图像分割’功能
谷歌近日为其Gemini2.5AI模型推出了创新的’对话式图像分割’功能,该技术允许用户通过自然语言提示直接分析和突出显示图像内容,超越了传统图像分割的局限。Gemini现在能够理解并响应更复杂、更具语义的指令,包括关系查询、基于逻辑的指令和抽象概念识别。此外,该功能支持多语言提示,并在图像编辑、工作场所安全和保险行业等多个领域展现出广泛的应用潜力。开发者可通过Gemini API直接访问此功能,无需特殊模型。
8、苹果iOS26 Beta4发布:Liquid Glass界面更新与AI新闻摘要功能回归
苹果公司本周二推出了iOS26的第四个开发者测试版,引入了Liquid Glass界面的细微变化和重新推出的AI驱动新闻通知摘要功能。此次更新还包括新的“欢迎”启动画面、Siri的AI新闻摘要和优先级选择,以及全新设计的相机应用。苹果此前因BBC的投诉暂停了AI新闻摘要功能,现已加入警告提示用户核实信息。此外,Beta4还增加了新的动态壁纸和CarPlay壁纸,以及其他系统的同步更新。
文章内容引用自:jungleBlog