当前位置: 首页 > news >正文

【AI News | 20250723】每日AI进展

AI Repos

1、qwen-code
Qwen Code是基于Gemini CLI,并为Qwen3-Coder模型优化的一款命令行AI工作流工具。它旨在简化开发者的日常任务,提供代码理解、编辑和工作流自动化等核心功能。Qwen Code通过增强的解析器和工具支持,能够处理超大代码库,自动化诸如拉取请求、复杂变基等操作。该工具安装简便,可通过命令行或npm全局安装,需要配置Qwen API密钥以启动服务。
在这里插入图片描述

2、higgs-audio
Higgs Audio v2是一款开源的音频基础模型,通过在超过1000万小时的音频数据上进行预训练,展现出卓越的表现力。该模型在EmergentTTS-Eval评估中,于情感和提问类别上超越了gpt-4o-mini-tts,并在多个传统TTS基准上达到了最先进的性能。其独创能力包括生成多语种多说话人对话、自动韵律调整、声线克隆哼唱及同时生成语音和背景音乐。

3、ConvertX
ConvertX是一款基于TypeScript、Bun和Elysia的自托管在线文件转换服务。它支持超过一千种文件格式的转换,并具备多文件批量处理、密码保护和多账户管理等功能。用户可以轻松通过Docker进行部署,并通过环境变量进行灵活配置,如允许HTTP连接、设置文件自动删除时间等。ConvertX支持多种转换器,如FFmpeg、ImageMagick和Pandoc,为个人和团队提供了高效且安全的文件处理解决方案。

AI News

1、快手与上海交通大学联合推出多模态生成理解模型Orthus
在国际机器学习大会(ICML)上,快手与上海交通大学合作推出的多模态生成理解模型Orthus正式开源。Orthus基于自回归Transformer架构,能在图文之间自如转换,展现出卓越的计算效率与强大的学习能力。在多项指标上超越现有模型,特别是在文生图生成的GenEval指标上表现优异。Orthus的架构设计巧妙,有效解耦了图像细节的建模和文本特征的表达,为多模态生成模型的发展带来新的可能性。

2、昆仑万维发布Mureka V7与TTS V1
昆仑万维集团于7月23日发布了Mureka V7音乐模型和Mureka TTS V1音频模型,标志着AI音乐生成领域的重大进步。Mureka V7通过高效的音乐创作能力和卓越的音乐品质,简化了传统音乐制作流程。Mureka TTS V1则支持Voice Design音色设计能力,提供个性化音色定制。这两款模型的发布展示了昆仑万维在AI音乐生成领域的深厚实力,预示着AI音乐生成向’人性化’转变。

3、Meta推出AU-Net架构:革新大语言模型文本处理方式
Meta研究团队推出的AU-Net架构,通过自回归的U-Net结构,直接从原始字节学习,动态组合字节形成多层次的序列表示,解决了传统分词技术的局限性。AU-Net采用收缩和扩张路径,有效融合宏观语义信息和局部细节,提高文本生成的连贯性与准确性,为大语言模型的发展提供了新的思路。

4、谷歌Gemini2.5Flash-Lite模型正式发布:速度最快、成本最低的AI新选择
谷歌最新发布的Gemini2.5Flash-Lite模型已进入稳定版本,以其最快的速度和最低的成本成为AI领域的新星。该模型支持高达100万token的上下文,定价策略极具竞争力,输入和输出token的费用分别为每百万0.10美元和0.40美元,音频输入价格较预览版降低40%。在多项基准测试中表现优异,支持多种高级功能,为开发者提供了高效且经济实惠的选择。

5、Latent Labs推出AI模型LatentX
Latent Labs宣布推出其全新网页AI模型LatentX,旨在改变蛋白质设计的游戏规则。该模型在蛋白质结合的实验结果中已达到行业领先水平,能够创造出全新的分子设计,精确到原子结构,加速新疗法的开发。与AlphaFold的蛋白质结构预测功能不同,LatentX能生成新蛋白质。Latent Labs的商业模式是将其模型授权给外部组织,未来计划逐步引入高级功能并收取费用。

6、Mixus推出创新AI代理平台
斯坦福大学新创公司Mixus推出了一款创新的AI代理平台,旨在通过邮件或Slack与AI代理互动,解决当前AI代理在决策失误、信息错误、团队协作和隐私保护方面的问题。该平台以其用户友好的设计和团队共享记忆功能脱颖而出,能够与多种工具集成,如Gmail和Jira,提升工作效率和协作能力。

7、谷歌Gemini2.5AI模型推出’对话式图像分割’功能
谷歌近日为其Gemini2.5AI模型推出了创新的’对话式图像分割’功能,该技术允许用户通过自然语言提示直接分析和突出显示图像内容,超越了传统图像分割的局限。Gemini现在能够理解并响应更复杂、更具语义的指令,包括关系查询、基于逻辑的指令和抽象概念识别。此外,该功能支持多语言提示,并在图像编辑、工作场所安全和保险行业等多个领域展现出广泛的应用潜力。开发者可通过Gemini API直接访问此功能,无需特殊模型。

8、苹果iOS26 Beta4发布:Liquid Glass界面更新与AI新闻摘要功能回归
苹果公司本周二推出了iOS26的第四个开发者测试版,引入了Liquid Glass界面的细微变化和重新推出的AI驱动新闻通知摘要功能。此次更新还包括新的“欢迎”启动画面、Siri的AI新闻摘要和优先级选择,以及全新设计的相机应用。苹果此前因BBC的投诉暂停了AI新闻摘要功能,现已加入警告提示用户核实信息。此外,Beta4还增加了新的动态壁纸和CarPlay壁纸,以及其他系统的同步更新。

文章内容引用自:jungleBlog

http://www.dtcms.com/a/296371.html

相关文章:

  • Windows11 本地安装docker Desktop 部署dify 拉取镜像报错
  • iOS Core Data 本地数据库 使用详解:从模型关系到数据操作
  • 技嘉z370主板开启vtx
  • 谈谈ArrayList与Vector的理解?
  • SpringBoot+AI+Web3实战指南
  • Python循环结构
  • 红黑树:高效平衡的终极指南
  • c语言学习(dyas10)
  • Kubernetes Kubelet 资源配置优化指南:从命令行参数到配置文件的最佳实践
  • Spring AI - ChatModel接口演示
  • TCO,UDP考点
  • 开发避坑短篇(5):vue el-date-picker 设置默认开始结束时间
  • SpringBoot航空订票系统的设计与实现
  • 视频模型国产PK国外?
  • 金仓数据库:从国产替代到AI融合的破局之路
  • #来昇腾学AI 【十天成长计划】大模型LLM Prompt初级班
  • Linux的工具
  • 提取边界线的思路与原理
  • Linux---systemd自启动
  • 论文复现-windows电脑在pycharm中运行.sh文件
  • 嵌入式——C语言:函数②
  • webGis框架
  • 元计算推动产业元宇宙改变世界
  • 将Scrapy项目容器化:Docker镜像构建的工程实践
  • Web前端开发:JavaScript reduce() 方法
  • 借助AI学习开源代码git0.7之九diff-files
  • MCU中的系统总线
  • Android 与 Windows 文件路径的设计差异
  • 机器学习概述与 KNN 算法详解
  • ESP32- 项目应用1 智能手表 之更新天气#4