当前位置：首页 > news >正文

LLM探索的时代

news 2025/7/9 11:21:24

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

当前的大语言模型，是过去三十年人类在互联网上自由发布海量文本内容的意外副产品。Ilya Sutskever 曾将这类信息比作“化石燃料”，即便丰富，但终究有限。一些研究指出，按照当前模型的 token 消耗速度，前沿实验室可能会在十年内耗尽高质量英文网页数据。即使这些预测过于悲观，有一点是确定的：当前的模型消耗数据的速度，远远超过了人类生成数据的速度。

David Silver 与 Richard Sutton 将接下来的阶段称为“经验时代”（Era of Experience），即未来的关键进展将依赖于学习代理自身生成的数据。在此基础上，Yiding Jiang 提出，更核心的瓶颈并不在于“拥有经验”，而在于是否能够收集到“有益于学习的经验”。下一波 AI 的进展将不再聚焦于堆叠更多参数，而是围绕“探索”——获取新颖且有价值的学习经验这一过程展开。

预训练是对探索的隐性投资

目前的大语言模型开发流程，通常包括两个阶段：首先通过大规模语料执行“下一个 token 预测”任务进行预训练，然后通过强化学习（RL）微调模型以实现特定目标。没有大规模的预训练，强化学习步骤往往难以取得有效进展，这一对比说明预训练解决了某种 RL 无法独立应对的问题。

最近研究中，一个看似矛盾的现象被广泛观察到：体积更小的模型一旦通过链式思维（Chain-of-Thought）蒸馏自更大模型，也能展现出显著的推理能力。一些人据此认为，大模型并非推理能力的前提。但该作者认为这种解读有误，应该反问：若小模型本身具备足够推理能力，为何还需要从大模型中蒸馏？

对此，一个合理的解释是：预训练其实承担了巨额“探索成本”。没有预训练的小模型，难以在自身探索过程中发现高质量解。预训练通过在多样语料上消耗海量计算资源，构建了一个丰富的采样分布，从而让模型能“靠近”正确答案的区域。蒸馏的过程，让小模型得以“继承”大模型探索所付出的代价，从而绕过了早期探索的难题。

强化学习中的学习循环大致包括以下步骤：

探索（Exploration）：生成一批带有随机性的轨迹（trajectories）；
强化（Reinforce）：对好的轨迹加权，不好的轨迹减权。

要让这一循环有效运行，探索阶段必须具备产生“好”轨迹的最低能力。这在 RL 中被称作“覆盖度”（coverage）。对于 LLM 来说，探索通常是从模型的自回归输出中采样，如果采样不到正确解，那后续强化阶段也就无法开展。

即便在最简单的表格型 RL 场景中（所有状态与动作都可列举），学习仍然需要大量尝试。相关理论表明，所需训练轮次会随着状态-动作组合数线性增长，随着任务时长（horizon）平方增长。而 LLM 的状态空间包括所有可能的文本前缀，动作空间是所有可能的下一个 token，两者规模极其庞大。在无先验信息的情况下，RL 几乎无法直接应用于此。

目前探索的“重活”大多由预训练完成。它提供了更优的采样分布，使得从中采样的轨迹具备更高的信息密度。但这也意味着，模型所能看到的轨迹类型受限于其训练时的 prior，要继续进步，就必须突破这一先验边界。

探索促进泛化能力

历史上，强化学习的研究多聚焦于解决单个环境，比如 Atari 游戏或 MuJoCo 模拟器。这种设置等同于在“同一个数据点”上训练与测试，无法说明模型能否应对真正的新颖情境。机器学习的核心是泛化：针对新问题创造解决方案才是价值所在。

泛化对于语言模型尤为关键。训练时 LLM 只见过有限数量的 prompt，而部署后需要应对任意用户输入，包括前所未见的任务。当前模型在“有明确奖赏信号”的任务上表现尤为出色，例如编程题或数学证明。但如果是更模糊的任务，如撰写研究报告、创作小说等，反馈稀疏或含糊，就会使训练难度和数据收集难度迅速升高。

那么，如何训练更具泛化能力的模型？深度学习的共识之一是“数据多样性提升泛化性能”，而探索正是决定数据多样性的关键因素。在监督学习中，一个标注样本会在一次前向传播中暴露全部信息，因此提升数据多样性只能靠收集更多样本。但在 RL 中，每次交互只暴露环境的一部分信息，必须收集足够多样的轨迹，才能形成对环境的完整理解。

如果采样策略太过简单，例如纯随机游走，模型很可能只接触到环境的“狭隘一角”，从而陷入过拟合。

这一问题在多环境情境中尤为明显。比如 Procgen 基准测试，是一组 Atari 风格但通过程序自动生成的游戏环境，每个游戏都有近似无限多的场景。目标是在固定数量的训练环境上进行训练，最后测试在全新、未见过的环境中是否仍具表现力。

许多研究将这一问题视为“表征学习”任务，并沿用监督学习中的正则化技术（如 Dropout 或数据增强）来提升泛化能力。虽然有效，但忽略了 RL 特有的探索结构。由于训练数据是模型自主收集的，调整探索策略同样能提升泛化。

该作者与合作者曾在研究中发现，结合现有 RL 算法与更强探索策略，可以在 Procgen 中实现泛化性能翻倍，且不依赖额外正则化方法。在后续研究中，又发现更佳的探索策略还能让模型有效利用更大架构与更多计算资源，从而进一步提升泛化能力。

虽然 Procgen 的复杂度远不及 LLM 所面对的任务，但其问题结构非常类似：在有限训练数据上学习，在测试时面对全新问题。当前 LLM 的探索方式主要是简单的采样（如调整 temperature 或加点 entropy bonus），因此探索空间仍非常广阔。虽然在该方向尚无太多成功案例，这可能是因为探索成本过高、不够 flop 高效，或研究尚不充分。但若像 Procgen 中的收益能迁移至 LLM，则我们很可能正在“浪费”大量效率，甚至错失新能力。

探索的两个扩展维度

广义的“探索”本质上是决定学习者将看到哪些数据，这一决策可拆分为两个维度：

世界采样（World sampling）——决定“从哪学”
所谓“世界”，可以是一个问题、一个任务或一个数据样本。在监督学习中，这体现在数据采集、合成与筛选阶段；在 RL 中，则表现为环境设计或生成（如一道数学题、一个编程问题）。这些构成了学习者能见的“信息边界”。
路径采样（Path sampling）——决定“如何学”
路径采样是 RL 所独有。在确定一个世界后，学习者需决定如何探索其中的轨迹。策略可能包括随机游走、基于好奇心的探索、树搜索、工具使用等。不同路径采样策略带来的计算成本差异巨大，训练数据也大相径庭。

在监督学习或无监督预训练中，路径采样的成本是固定的，每个样本一经前向传播，信息即全部获得，因此探索的成本主要集中在世界采样上。而在 RL 中，路径采样可以选择不同策略深入“同一个世界”，这使得 RL 的探索效率远低于监督学习，随机轨迹很可能没有信息，因此必须精打细算地分配 flop 预算。

对大多数机器学习任务来说，目标都是“单位计算获取更多有用信息”。在两个维度上，世界采样与路径采样之间形成了资源分配的权衡：世界太多但路径探索不足，可能什么都学不到；路径探索太深入但世界太少，则可能过拟合。理想状态是两者平衡，获取最大信息量。

如果熟悉 scaling law，这种设想就像 Chinchilla scaling law，只是横纵轴变成了在环境内与环境间的采样计算开销。

相较之下，路径采样的目标相对清晰：例如通过减少模型的不确定性进行有效探索。问题在于，这类算法往往计算开销巨大。世界采样则目标更模糊，一个有趣的方向是开放式学习（open-ended learning），但它要求设计出一个环境宇宙或评估机制，目前尚缺统一目标。

该作者推测，世界采样最终可能会演变为类似预训练数据选择的过程。我们很难明确指出哪一环境对泛化有帮助，因此需要大量环境。每个人会从自己擅长领域出发设计任务环境，当“人类验证”过的好任务积累足够后，或许可以从中学习环境设计的共性，甚至实现自动化设计。

初步研究显示，可能并不需要像预训练那样庞大的环境数量。一项研究表明，有限数量的环境就能训练出在分布外任务中具备探索与决策能力的代理模型，且当前已有 LLM 可辅助环境设计。

当然，探索扩展远不如预训练扩展那样清晰易行，但若能找到扩展世界与路径采样的可靠方式，就有望绘制出“等性能曲线”，展示最优计算资源配置策略。

最后的思考

虽然还有诸如更佳好奇心目标、开放式学习、元探索等相关话题值得展开，但更重要的是传达一个高层观点：

过去的扩展范式极其成功，但所有范式终将饱和。关键在于，下一数量级的计算资源该投向何处。“探索”——包括世界采样与路径采样——提供了一条潜力方向。我们尚不清楚具体的扩展规律、环境生成器或探索目标，但从直觉上看，这些应该是可能的。未来几年将决定“探索”是否能在现有范式基础上进一步提高 flop 使用效率。这个赌注，值得一试。

查看全文

http://www.dtcms.com/a/269922.html