2025年4月人工智能发展前沿
文章目录
- 4月1日
- Gen-4 模型发布【重要】
 
- 4月5日
- Midjourney v7 发布【重要】
 
- 4月6日
- Llama 4 正式发布【重要】
 
- 4月9日
- 字节开源新生图模型 UNO
 
- 4月10日
- 谷歌发布 TPU v7【重要】
- 商汤发布第六代大模型 SenseNova v6
 
- 4月11日
- ChatGPT 解锁完整记忆
- 字节发布击败 DeepSeek-r1 的开源推理模型
 
- 4月13日
- 昆仑万维开源小参数量最强推理大模型
 
- 4月15日
- OpenAI 发布 GPT-4.1【重要】
- 可灵 2.0 系列模型发布【重要】
 
- 4月17日
- OpenAI 发布 o3 和 o4-mini 模型【重要】
- 谷歌推出跨物种交流大模型
- 豆包 1.5 模型正式上线【重要】
 
- 4月18日
- 谷歌发布首款混合推理模型 Gemini 2.5 Flash【重要】
 
- 4月19日
- 微软发布首个 1bit 精度大模型
 
- 4月22日
- 首个自回归视频生成模型 Magi-1 发布【重要】
- Vidu Q1 成为全球最强视频生成模型【重要】
 
- 4月24日
- 最强多模态推理模型 Skywork-R1V 2.0 发布
- OpenAI 推出最强图像生成 API
 
- 4月25日
- OpenAI 发布免费 Deep Research【重要】
- 百度发布 Erine-4.5 Turbo 和 Erine-X1 Turbo【重要】
 
- 4月29日
- Qwen3 登顶全球最强开源模型【重要】
 
- 4月30日
- 数学定律证明模型 DeepSeek-Prover-V2 发布【重要】
 
4月1日
Gen-4 模型发布【重要】
- AI 初创公司 Runway 发布了一款号称迄今为止保真度最高的 AI 视频生成模型 Gen-4。
- 模型在画面真实感、动态流畅度和创作可控性方面取得了重大进步。与上一代的 Gen-3 Alpha版本相比,Gen-4更加擅长生成具有逼真运动以及主题、对象和风格一致性的高度动态视频,同时具备优秀的提示遵循能力和一流的全局理解能力。
- 官方声称 Gen-4图像转视频功能已经向所有付费计划和企业用户推出。
4月5日
Midjourney v7 发布【重要】
- Midjourney v7 alpha发布,被他们自己称为最聪明、最美丽、最连贯的模型。
- v7模型有两大更新。第一个是默认开启模型个性化设置,即生成图像前大约用5分钟的时间让模型提前了解用户的喜好和审美;第二个是草稿模式,也是旗舰功能,其价格只有标准模式的一半,渲染图片的速度却快了十倍,以至于可以用对话来控制它。
4月6日
Llama 4 正式发布【重要】
- Meta 官宣开源首个原生多模态 Llama模型Llama 4。该模型首次 MoE 架构,支持12种语言。
- 首批发布的 Llama 4系列模型共有两款,分别是Llama 4 Scout和Llama 4 Maverick。前者有109B参数,17B活跃参数,16个专家,支持10M的上下文;后者有400B参数,17B活跃参数,128个专家,支持1M的上下文。
- Llama 4是迄今为止开源的能力最强、多模态能力最好的模型之一。在 LMSYS 排行榜上- Llama 4 Maverick排名第二,仅次于闭源的- Gemini 2.5 Pro。值得一提的是,仅使用一半左右的参数,- Maverick推理编码能力就与- DeepSeek-v3-0324相当,而- Llama 4 Scout的最大亮点是支持- 10M的上下文。
- 另外,2000B参数的Llama 4 Behemoth将在未来几个月后发布,目前仍然在训练中。
4月9日
字节开源新生图模型 UNO
- 字节团队以 FLUX为基础模型,提出了新的生图模型UNO,统一了图像生成任务中不同输入条件的处理。
- 对于该模型,无论是单主体的风格变换,还是不同物体的融合,都能直接搞定。
- 开发团队认为 UNO主要解决的是参考驱动的图像生成中的两个主要挑战,即数据可扩展性和主体可扩展性。再多主体参考图像生成测试中,UNO的DINO和CLIP得分均达到了SOTA水平。
4月10日
谷歌发布 TPU v7【重要】
- 谷歌发布了首款 AI 推理特化版 TPU 芯片 TPU v7,代号Ironwood。该芯片的 FP8 峰值算力达到4614TFlops,性能是2017念第二代 TPU 的 3600 倍,是第五代 TPU 的 10 倍。
- 第七代 TPU 还突出高扩展性,最高配的集群可以有 9216 张液冷芯片,综合算力是目前全球最强的超级计算机 EL Capitan的 24 倍。
- 该芯片的设计思路是再执行大规模张量操作的同时最大限度地减少芯片上的数据移动和延迟。
商汤发布第六代大模型 SenseNova v6
- 商汤刚刚发布了第六代大模型日日新 SenseNova V6,该模型支持对长达几分钟的视频进行推理和解析。
- 该模型是原生多模态通用大模型,采用 600B参数的 MoE 架构,实现了文本、图像和视频的原生融合。模型的特点是强推理、强交互和长记忆。
- 从性能上来看,SenseNova v6在纯文本任务和多模态任务中,多项指标都已经超过了GPT-4.5、Gemini 2.0 Pro,并全面超越DeepSeek v3。在强推理能力上,SenseNova v6和SenseNova v6 reasoner的多模态和语言深度推理任务上同时超过了 OpenAI 的o1和Gemini 2.0 flash-thinking的水平。
4月11日
ChatGPT 解锁完整记忆
- 刚刚,OpenAI 发布 ChatGPT的新能力,支持参考过去所有对话内容,从而更好地根据个人喜好来生成回复。除了能够保存记忆之外,还可以引用过去的内容。
- 此次更新意味着 ChatGPT从此变成了更加了解用户、更像私人助理的角色。
- 新的功能从今天开始就已经为 Plus用户和Pro用户提供,如果不希望使用该功能也可以禁用。
字节发布击败 DeepSeek-r1 的开源推理模型
- 字节跳动豆包团队今天发布了新的推理模型 Seed-Thinking-v1.5的技术报告。
- Seed-Thinking-v1.5模型是一个拥有- 200B总参数的 MoE 模型,每次工作时会激活其中- 20B参数。该模型通过深度思考来提升推理能力。
- 模型的表现非常惊艳,在各个领域的基准上都超过了拥有 671B参数的DeepSeek-r1,有人推测这就是目前字节豆包正在使用的深度思考模型。
- 为了实现推理模型的高质量,团队在数据、强化学习算法和基础设施这三大关键部分都进行了创新。
4月13日
昆仑万维开源小参数量最强推理大模型
- 昆仑万维刚刚推出了 Skywork-OR1系列模型。该模型的参数量只有32B,但是完全超越同规模的阿里的QwQ-32B,同时具有媲美DeepSeek-r1的代码生成能力。
- 模型的数学能力在 7B和32B级别上都达到同规模最优。目前7B版本的模型和32B版本的模型的能力还在持续提升,昆仑万维两周内会发布两个模型的正式版本和更加详细的技术报告。
- 该模型免费商用,并且包括模型权重、训练数据集和完整训练代码在内的内容全面开源,所有资源都已经上传至 Github平台和HuggingFace平台。
4月15日
OpenAI 发布 GPT-4.1【重要】
- 今天凌晨,OpenAI 发布了新系列模型 GPT-4.1。该系列模型共有三个型号,分别是GPT-4.1、GPT-4.1 mini和GPT-4.1 nano,仅通过 API 调用,目前已经向所有开发者开放。
- OpenAI 表示,这三个模型的性能全面超过了 GPT-4o和GPT-4o mini,并且在编程和指令遵循方面均有显著提升,并且有显著更大的上下文窗口10M,模型还可以通过改进后的上下文理解能力更好地利用这些上下文。
- GPT-4.1 nano是 OpenAI 迄今为止速度最快,成本最低的模型。
- 由于该系列模型在很多关键功能上提供了类似或更强的性能,并且成本和延迟更低,因此 OpenAI 将在三个月后在 API 中弃用 GPT-4.5预览版。
可灵 2.0 系列模型发布【重要】
- 今天,可灵 AI 的发布会上,可灵 2.0视频生成模型和可图 2.0图像生成模型都高调推出,
- 这两款模型被称为有史以来最强大的视觉生成模型。在团队内部的多项胜负率评测中,可灵 2.0相较于谷歌的Veo2的胜负比为205%,对比Sora的胜负比达到367%,在文字相关性、画面质量和动态质量等维度显著超越对手。即使对于上一代模型可灵 1.6,其高品质模式下的基准测试评分就超过了Runway-4、Veo2等对手,登顶图生视频赛道的榜首。
- 总体而言,相较于之前的版本,可灵 2.0有更强的语义响应、更优的动态质量和更好的画面美学;可图 2.0则不仅提升了语义遵循能力,画面更具电影质感,同时还能响应近百种风格。
- 可灵 2.0系列模型发布即上线,全球会员都可以上手体验。
4月17日
OpenAI 发布 o3 和 o4-mini 模型【重要】
- OpenAI 在刚刚的发布会上发布了满血版的 o3和下一代推理模型o4-mini,号称首次实现了“用图像思考”,堪称视觉推理模型中的巅峰之作。
- o3模型在- Codeforces、- SWE-bench、- MMMU等基准中,- o3刷新 SOTA,在编程、数学、科学、还有视觉感知领域都树立了新的标杆。尤其是对于图像、图表、图形分析的表现尤为突出,它可以深入挖掘视觉输入的细节。但是,- o3这种“智力”付出的代价是- o1十倍以上的算力。
- 相较于满血版的 o3,o4-mini以小巧高效、高性价比作为特点。在AIME 2025测试中,o4-mini配合 Python 解释器取得了99.5%的高分,几乎完美拿下了这项基准测试。而且在数学、编程、视觉任务,以及非 STEM 领域,其性能都优于o3-mini。此外,o4-mini支持远超o3的使用额度,是高并发场景的最优选择。
- 这两款模型真正强大的地方,它们不仅仅是模型,而更像是一个 AI 系统。它们和之前的推理模型的最大区别,就是首次被用来训练各种工具,这两款模型可以在思维链中使用这些工具来解决难题。
- 另外,OpenAI 还开源了一个可以在终端运行的轻量级编程 AI 智能体 Codex CLI。
- 从今天起,ChatGPT Plus、Pro和Team用户都可以体验o3、o4-mini和o4-mini-high,它们将分别取代o1、o3-mini和o3-mini-high。同时,这两款模型也将通过Chat Completions API和Responses API,向所有开发者提供。
谷歌推出跨物种交流大模型
- 谷歌推出了一款名为 DolphinGemma的创新 AI 模型,不仅可以听懂海豚在说什么,还能再水下与海豚进行实时交流。
- DolphinGemma是一个基础的 LLM 模型,但是使用音频数据进行训练,来学习海豚发声的结构并生成类似海豚的声音序列,也是第一个能与动物交流的LLM。
- Google 宣布将在夏天开源这个模型,模型足够小,只有 400M大小,可以部署在一台手机上。
豆包 1.5 模型正式上线【重要】
- 今天上午,火山引擎总裁宣布 豆包1.5深度思考模型加入豆包大模型全家桶。即日起,用户即可在火山方舟官网直接调用改模型的 API。
- 豆包1.5具有两个版本,第一个主线版本是大语言模型- Doubao-1.5-thinking-pro,第二个是具备多模态能力的视觉版- Doubao-1.5-thinking-pro-vision。前者的推理能力更强,而后者支持视觉推理,开发者可以按需调用。
- 经过与 DeepSeek-r1、QwQ-32B、o1、o3-mini-high等模型在基准测试上的对比,可以发现Doubao-1.5-thinking-pro在数学推理、编程竞赛、科学推理等领域和创意写作等通用任务中均表现突出。
4月18日
谷歌发布首款混合推理模型 Gemini 2.5 Flash【重要】
- 刚刚,谷歌发布首个混合推理模型 Gemini 2.5 Flash,该模型和 Claude 类似,思考预算可以自定义,也就是可以开启或关闭模型的思考模式,由此帮助用户控制预算。
- 关闭思考模式后,模型的成本直接降低 600%,并且性能没有输给 Gemini 2.0 Flash。开启思考模式后,思考越久,模型的性能提升越大。
- 目前,Gemini 2.5 Flash preview已经在 Google AI Studio 和 Vertex AI 的 API 中上线。
4月19日
微软发布首个 1bit 精度大模型
- 微软亚洲研究院开源了第一款参数量为 2B,并且还是原生 1bit 精度的大语言模型 BitNet b1.58 2B4T。
- 该模型的特点有三个,分别是:模型里的参数只有 -1、0 和 1 三种取值;模型参数量只有 2B,并且由于参数精度低因此模型只有 0.4GB 的大小;使用针对CPU架构设置的开源推理框架。
4月22日
首个自回归视频生成模型 Magi-1 发布【重要】
- 中国团队三呆科技发布了新的视频生成模型 Magi-1,一夜间实现了全网刷屏。
- 该模型是首个实现顶级画质输出的自回归视频生成模型,并且模型权重和代码都完全开源。在整整六十一页的技术报告中,还详细介绍了创新的注意力改进和推理基础设施设计。
- 模型的主打能力包括:无限长度扩展,实现无缝连贯叙事;将视频市场控制精确到每一秒;对物理规律有深入理解,大幅领先一众顶流模型。
Vidu Q1 成为全球最强视频生成模型【重要】
- 生数科技发布国产视频大模型 Vidu Q1,在权威评测基准VBench-1.0和VBench-2.0中,一举超过Sora、Runway等顶尖模型,夺得文生视频赛道双榜第一。
- Vidu Q1在视频生成逼真程度上遥遥领先,在美学质量、精准生成、视频语义一致性、内容真实性上都取得了第一的亮眼成绩。
- 此外,该模型在国内权威大模型评测 SuperCLUE的图生视频榜单中在动漫和写实风格都夺得了第一,甚至超过了才发布不久的可灵2.0模型。
- 该模型的视频分辨率已经支持 1080p,并且作为行业最强的 SOTA 模型,价格只有同行价格的十分之一,可以说是性价比拉满。
4月24日
最强多模态推理模型 Skywork-R1V 2.0 发布
- 刚刚,昆仑万维发布了之前全球首个工业界多模态推理模型 Skywork-R1V的升级版Skywork-R1V 2.0,目前该模型的所有资源都已经全面开源。
- R1V 2.0模型的诞生不仅推动了开源多模态大模型再能力边界上的突破,更为多模态智能体的搭建提供了全新的基座模型。
OpenAI 推出最强图像生成 API
- OpenAI 发布了全新的图像生成模型 GPT-image-1,API 向所有的开发者开放。该模型集成了图像理解、图像编辑和图像变体三大功能。
- 低质量、中质量和高质量的方形图像,生成大约分别花费 0.02 美元、0.07 美元 和 0.19 美元。
- 模型最最大的特点在于支持各种高级功能的定制,例如支持自定义输出图像的质量、尺寸、格式、压缩程度和是否需要透明背景等,满足多样化的创意需求。
4月25日
OpenAI 发布免费 Deep Research【重要】
- 今天早上,OpenAI 官宣了轻量版的 Deep Research,无论是免费用户,还是Plus、Team、Pro用户,都可以使用。免费用户每个月可以使用 5 次,Plus、Team用户每个月可以使用 25 次,Pro用户每个月外加 125 次。
- 目前该版本由 o4-mini进行加持,继承了原始版本的智能内核,几乎能够提供同样出色的深度分析和洞察力。它可以以极高的性价比提供更加简洁的回复。
百度发布 Erine-4.5 Turbo 和 Erine-X1 Turbo【重要】
- 刚刚百度发布了两款新大模型 Erine-4.5 Turbo和Erine-X1 Turbo。这两款大模型主打的是多模态、强推理和低成本。
- 4.5 Turbo模型在图片和视频的视觉理解上效果更好,在去幻觉、逻辑推理和代码能力上也有了明显增强;- X1 Turbo模型在推理性能上变得更强,它有了更先进的思维链,在问答、创作、逻辑推理、工具调用和多模态能力上也有了进一步的提升。
- 这两款模型的性价比极高,X1 Turbo的价格低至每百万 token 输入价格为1元,输出价格为4元,仅为DeepSeek-R1价格的四分之一。4.5 Turbo的成本就更低了,每百万 token 输入价格仅为0.8元,输出价格3.2元,仅为DeepSeek-V3的百分之四十。
4月29日
Qwen3 登顶全球最强开源模型【重要】
- 今天凌晨,阿里新一代通义千问模型 Qwen3开源,并且直接登顶全球最强开源模型。
- 该模型的参数量仅为 DeepSeek-R1的三分之一,成本也大幅度下降,但是性能却全面超越R1、OpenAI-o1等全球顶尖模型。
- Qwen3是国内首个混合推理模型,它将快思考和慢思考集成到同一个模型中,对简单的需求可以采用低算力进行快速回答,对复杂问题进行深度思考,从而大大节约了算力资源。
- 该模型采用 MoE 架构,总参数量为 235B,激活参数量为22B。它的预训练数据量达到了36T,并且在后训练阶段使用了多轮的强化学习,将非思考模式无缝整合到了思考模型中。
- 该模型推出了多个不同尺寸的版本,所有的版本都支持 119 种语言和方言,具有强大的指令跟随和翻译能力。
- 模型的推理能力显著增强,在数学、代码生成和常识逻辑推理方面,超越了处于思考模式下的 QwQ和处于非思考模式夏的Qwen2.5 Instruct模型。
- 目前,Qwen3已经上线了魔搭社区、HuggingFace、Github,并且支持在线体验。
4月30日
数学定律证明模型 DeepSeek-Prover-V2 发布【重要】
- 刚刚,DeepSeek 发布了新模型 DeepSeek-Prover-V2。
- 该模型提供两种尺寸,分别是 7B参数和671B参数。671B参数的模型在DeepSeek-V3-Base的基础上完成训练,具有最强的推理性能;而7B的模型基于DeepSeek-Prover-V1.5-Base构建,上下文长度扩展到了32K tokens。
- 该模型可以在先前最高分为 10道题的数学定律证明普特南测试中做出49道题。另外,7B 的模型还用非 CoT 生成模式解决了 13 道671B模型未能解决的问题,也就是说7B的模型学会了671B模型没有学会的新技能。
- DeepSeek 在 HuggingFace 上开源了 671B的模型并在随后放出了技术报告。
