LLMs 系列科普文(13)
十三、AlphaGO
提到强化学习的历史,不得不提到 alphago,如果你不记得这是什么了,那你是否还曾记得,早些年 AI 已经可以在围棋中击败人类选手了。
AlphaGO 系统又 DeepMind 公司开发,你可以在网络上找到当初人机大战的视频,它与顶尖的人类选手对弈的过程。当我们翻到 AlphaGo 的原始论文1时,会发现一个非常有趣的图(图 3)。

这张图让我觉得似曾相识——我们正在更开放的通用问题解决领域中重新发现它,而非局限于围棋这个封闭的特定领域。本质上他们观察到的现象(随着技术成熟,我们在大语言模型领域也将看到类似规律)是:左图中对比了监督学习训练出的模型(紫色)与强化学习训练出的模型(蓝实线)在围棋对弈中的实力差距,图中标注了人类顶尖棋手李世石的水平(蓝虚线)作为参照。
因此,监督学习模型是在模仿人类专业棋手。如果你只是获取大量由专业棋手对弈的围棋棋局,并试图模仿他们,你的水平会有所提升。但之后你会遇到瓶颈,永远无法超越围棋界最顶尖的几位棋手。所以你永远无法达到那个境界,因为你只是在模仿人类玩家。如果你只是模仿人类玩家,你本质上就无法超越人类玩家。但在强化学习的过程中,它的能力要强大得多。
在围棋的强化学习中,这意味着系统正在采取那些经验上和统计上能带来胜利的走法。因此,AlphaGo 是一个通过自我对弈的系统,并利用强化学习来生成棋局推演。所以这里的结构图完全相同,但没有提示词,因为它只是一个固定的围棋对局。但它会尝试多种解决方案,尝试各种玩法,然后那些能带来胜利的游戏方式——而非某个特定答案——会被强化。这些成功的策略会变得更强大。因此,系统本质上是在学习那些从经验和统计角度能赢得游戏的行动序列。而强化学习不会受到人类表现的限制。强化学习可以做得更好,甚至能超越像李世石这样的顶尖选手。所以他们可能本来可以让这个运行得更久,只是选择在某个时候停止,因为这需要花费很多资金。
但这确实是一个强化学习的强大示范。我们才刚刚开始在大型语言模型中看到这种推理问题图的雏形。因此,仅仅模仿专家是无法让我们走得太远的。我们需要更进一步,建立类似小型游戏环境,让系统自主发现独特的推理路径或解题方法——那些行之有效的独特方式。关于独特性这一点要注意:进行强化学习时,系统完全可能偏离人类玩家的行为分布。比如回顾 AlphaGo 的搜索过程时,其中一个被提出的改进方案被称为"第 37 手"。
而 AlphaGo 的第 37 步棋指的是一个特定时刻,当时 AlphaGo 下出了一步人类专家根本不会走的棋。据评估,人类棋手走出这步棋的概率约为万分之一,因此这是一步极其罕见的棋。但回过头来看,这步棋堪称神来之笔。AlphaGo 在强化学习过程中发现了一种人类未曾知晓却事后看来精妙绝伦的棋路策略。如果你对围棋比较了解,你可以在网络上搜索到关于 AlphaGo 第 37 手的有关讲解视频进行学习,我个人对围棋几乎一窍不通。
总之,人们之所以如此震惊,是因为这是人类绝不会下的一手棋,而 AlphaGo 却这样下了。因为在它的训练中,这手棋似乎是个好主意,只不过碰巧这不是人类会采取的策略。因此,这再次体现了强化学习的力量。从理论上讲,如果我们继续在语言模型中扩展这种范式,我们实际上可以看到其等效性。而具体会是什么样子,目前还不得而知。
那么,以人类都无法企及的方式解决问题意味着什么?如何才能比人类更擅长推理或思考?如何超越仅仅是一个会思考的人类?也许这意味着发现人类无法创造的类比。或者,这可能是一种全新的思考策略。这确实有点难以想象。也许这是一种全新的语言,甚至根本不是英语,也许它发现了一种更适合思考的语言,也许它会选择另一种语言来思考,或者创造出自己的语言。因此从原则上讲,系统的行为更加难以界定。它可以自由采取任何有效的方式。
而且它还能逐渐偏离其训练数据的分布。但这一切只有在拥有大量多样化的问题集时才能实现,这些策略可以在这些问题中得到完善和优化。因此,这正是当前前沿大语言模型研究的重点所在。它试图创建那些规模庞大且多样化的提示分布。这些就像是大型语言模型可以练习思考的游戏环境。这有点像编写这些练习题。我们必须为所有知识领域创建练习题。如果我们有大量练习题,模型就能通过强化学习掌握这些内容,并生成类似的图表,但这是在开放思维领域而非围棋这样的封闭领域。
alphago paper: https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf ↩︎