当前位置：首页 > news >正文

大语言模型研究进展

news 2025/8/21 10:24:21

大语言模型研究进展

一、前沿模型动态

1. 扩散范式突破：LLaDA 8B的双向生成革命

中国人民大学与蚂蚁集团联合发布首个8B级扩散大语言模型LLaDA（Large Language Diffusion with mAsking），挑战传统自回归生成范式。该模型通过前向掩码加噪与反向去噪机制实现双向概率建模，其核心公式如下：

前向过程：通过逐步添加高斯噪声破坏原始文本，定义为：
$q(\mathbf{x}_t | \mathbf{x}_{t-1}) = \mathcal{N}(\mathbf{x}_t; \sqrt{1-\beta_t}\mathbf{x}_{t-1}, \beta_t \mathbf{I})$
其中 $βt\beta_t$ 为噪声调度参数， $xt\mathbf{x}_t$ 表示第 $t$ 步的加噪文本。

反向过程：通过Transformer预测被掩码的tokens，目标函数为负对数似然的变分上界：
$\mathcal{L}_{\text{VLB}} = \mathbb{E}_{q(\mathbf{x}_{1:T}|\mathbf{x}_0)} \left[ \log p_{\theta}(\mathbf{x}_0 | \mathbf{x}_1) - \sum_{t=2}^T \mathbb{E}_{q(\mathbf{x}_t | \mathbf{x}_{t-1})} \left[ \log \frac{q(\mathbf{x}_{t-1} | \mathbf{x}_t, \mathbf{x}_0)}{p_{\theta}(\mathbf{x}_{t-1} | \mathbf{x}_t)} \right] \right]$
实验表明，LLaDA在MMLU（Multi-Modal Language Understanding）和GSM8K（Grade School Math 8K）等基准测试中表现与LLaMA3 8B相当，尤其在诗歌补全等逆向推理任务中显著超越GPT-4o。

2. OpenAI开源推理模型：MoE架构的端侧部署突破

OpenAI时隔6年再度开源gpt-oss-120b和gpt-oss-20b模型，采用混合专家（MoE）架构实现高效推理。其核心公式为：
$\text{MoE}(x) = \sum_{i=1}^N g_i(x) \cdot f_i(x)$
其中 $g_i(x)$ 为门控网络输出的专家选择概率， $f_i(x)$ 为第 $i$ 个专家网络的输出。gpt-oss-120b在H100 GPU上实现每秒3000 tokens的推理速度，且支持MXFP4原生量化，在医疗健康查询（HealthBench）任务中准确率超越o4-mini。

3. 终端设备革新：Google Gemma 3 270M的本地化部署

Google发布0.27B参数的轻量化模型Gemma 3 270M，专为终端设备设计。该模型采用4头注意力机制，通过量化感知训练（QAT）实现INT4精度推理，公式如下：
$\mathbf{W}_{\text{INT4}} = \text{round}(\mathbf{W}_{\text{FP32}} / S) \cdot S$
其中 $S$ 为量化缩放因子。在Pixel 9 Pro手机上，25轮对话仅消耗0.75%电量，成功应用于OCR文本结构化和本地创意写作场景。

二、算法优化与框架创新

1. ARPO：LLM智能体的高效探索策略

针对多轮工具交互中的不确定性问题，ARPO（Agentic Reinforced Policy Optimization）提出熵基自适应采样与优势归因估计。其核心公式包括：

token熵计算：
$H_t = -\sum_{i=1}^{|V|} p_t(v_i) \log p_t(v_i)$
其中 $p_t(v_i)$ 为第 $t$ 步token $v_i$ 的生成概率。
优势归因估计：
$A_t^{\text{hard}} = \max_{a \in \mathcal{A}} Q(s_t, a) - Q(s_t, a_t)$
$A_t^{\text{soft}} = \mathbb{E}_{a \sim \pi} [Q(s_t, a)] - Q(s_t, a_t)$
在13项基准测试中，ARPO节省50%工具使用预算，推理效率提升30%。

2. 多模态动态优化：Shuffle-R1框架

针对多模态大语言模型强化学习效率问题，Shuffle-R1通过动态重构轨迹采样和批次构成提升训练效率。其核心公式为：
$\mathcal{T}_{\text{shuffled}} = \text{shuffle} \left( \bigcup_{i=1}^K \mathcal{T}_i \right)$
其中 $Ti\mathcal{T}_i$ 为第 $i$ 个任务的轨迹集合。实验表明，该框架在视觉问答（VQA）任务中准确率提升8%，训练速度加快40%。