当前位置：首页 > news >正文

推理能力：五一模型大放送

news 2025/7/1 17:46:54

--->更多内容，请移步“鲁班秘笈”！！<---

近日人工智能领域迎来了一波密集的模型发布潮，多家科技巨头和研究机构相继推出了具有突破性特点的AI模型。这些新模型在参数规模、计算效率、多模态能力以及推理能力等方面都展现出显著进步，反映了AI技术在不同应用场景的专业化发展趋势。

微软的Phi-4-Reasoning系列

LLM在数学问题解决、算法规划或编码等推理密集型任务上的有效性仍受到模型大小、训练方法和推理时能力的限制。表现良好的通用NLP基准模型往往缺乏构建多步推理链或反思中间问题解决状态的能力。

4月30日，微软推出了Phi-4推理系列，包括三个模型——Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。这些模型源自Phi-4基础版（14B参数），专门训练用于处理数学、科学领域和软件相关问题解决中的复杂推理任务。每个变体都解决了计算效率和输出精度之间的不同权衡。

Phi-4-reasoning模型基于Phi-4架构构建，针对模型行为和训练方案进行了有针对性的改进：

结构化监督微调（SFT）：精心策划了超过140万个提示，重点关注"边界"案例——处于Phi-4能力边缘的问题，强调多步推理而非事实回忆
思维链格式：为促进结构化推理，模型被训练使用显式<think>标签生成输出，鼓励推理过程和最终答案之间的分离。
扩展上下文处理：修改了RoPE基频以支持32K令牌上下文窗口，允许更深入的解决方案痕迹，特别适用于多轮或长格式问题格式。
强化学习（Phi-4-reasoning-plus）：使用群体相对策略优化（GRPO），Phi-4-reasoning-plus在约6,400个以数学为重点的问题集上进一步精炼。设计了奖励函数以偏好正确、简洁和结构良好的输出，同时惩罚冗长、重复和格式违规。

在广泛的推理基准测试中，Phi-4-reasoning-plus不仅在特定领域评估中表现出色，而且很好地泛化到规划和组合问题，如TSP和3SAT，尽管在这些领域没有明确训练。在指令遵循（IFEval）和长上下文QA（FlenQA）方面也观察到性能提升，表明思维链公式改善了更广泛的模型效用。

重要的是，微软报告了AIME 2025等敏感数据集在50多次生成运行中的完整方差分布，揭示Phi-4-reasoning-plus的性能一致性与o3-mini等模型相当甚至有些领域还超过

Qwen2.5-Omni-3B

4月30日，阿里巴巴发布了Qwen2.5-Omni-3B模型，作为Qwen2.5-Omni系列的轻量级变体。该模型仅有3B参数，却能提供接近7B参数模型的性能表现，最大的亮点在于其显著降低的内存占用——在处理长序列（约25,000个token）时，VRAM消耗减少了超过50%。

Qwen2.5-Omni-3B采用基于Transformer的架构，支持跨文本、图像和音视频输入的多模态理解。该模型沿袭了其7B对应版本的设计理念，采用模块化方法，通过共享的Transformer主干网络统一各种模态特定的输入编码器。这种设计使其能够在保持多模态理解能力的同时，大幅降低计算资源需求。