当前位置: 首页 > news >正文

LLMs 系列科普文(13)

十三、AlphaGO

提到强化学习的历史,不得不提到 alphago,如果你不记得这是什么了,那你是否还曾记得,早些年 AI 已经可以在围棋中击败人类选手了。

AlphaGO 系统又 DeepMind 公司开发,你可以在网络上找到当初人机大战的视频,它与顶尖的人类选手对弈的过程。当我们翻到 AlphaGo 的原始论文1时,会发现一个非常有趣的图(图 3)。

这张图让我觉得似曾相识——我们正在更开放的通用问题解决领域中重新发现它,而非局限于围棋这个封闭的特定领域。本质上他们观察到的现象(随着技术成熟,我们在大语言模型领域也将看到类似规律)是:左图中对比了监督学习训练出的模型(紫色)与强化学习训练出的模型(蓝实线)在围棋对弈中的实力差距,图中标注了人类顶尖棋手李世石的水平(蓝虚线)作为参照。

因此,监督学习模型是在模仿人类专业棋手。如果你只是获取大量由专业棋手对弈的围棋棋局,并试图模仿他们,你的水平会有所提升。但之后你会遇到瓶颈,永远无法超越围棋界最顶尖的几位棋手。所以你永远无法达到那个境界,因为你只是在模仿人类玩家。如果你只是模仿人类玩家,你本质上就无法超越人类玩家。但在强化学习的过程中,它的能力要强大得多。

在围棋的强化学习中,这意味着系统正在采取那些经验上和统计上能带来胜利的走法。因此,AlphaGo 是一个通过自我对弈的系统,并利用强化学习来生成棋局推演。所以这里的结构图完全相同,但没有提示词,因为它只是一个固定的围棋对局。但它会尝试多种解决方案,尝试各种玩法,然后那些能带来胜利的游戏方式——而非某个特定答案——会被强化。这些成功的策略会变得更强大。因此,系统本质上是在学习那些从经验和统计角度能赢得游戏的行动序列。而强化学习不会受到人类表现的限制。强化学习可以做得更好,甚至能超越像李世石这样的顶尖选手。所以他们可能本来可以让这个运行得更久,只是选择在某个时候停止,因为这需要花费很多资金。

但这确实是一个强化学习的强大示范。我们才刚刚开始在大型语言模型中看到这种推理问题图的雏形。因此,仅仅模仿专家是无法让我们走得太远的。我们需要更进一步,建立类似小型游戏环境,让系统自主发现独特的推理路径或解题方法——那些行之有效的独特方式。关于独特性这一点要注意:进行强化学习时,系统完全可能偏离人类玩家的行为分布。比如回顾 AlphaGo 的搜索过程时,其中一个被提出的改进方案被称为"第 37 手"。

而 AlphaGo 的第 37 步棋指的是一个特定时刻,当时 AlphaGo 下出了一步人类专家根本不会走的棋。据评估,人类棋手走出这步棋的概率约为万分之一,因此这是一步极其罕见的棋。但回过头来看,这步棋堪称神来之笔。AlphaGo 在强化学习过程中发现了一种人类未曾知晓却事后看来精妙绝伦的棋路策略。如果你对围棋比较了解,你可以在网络上搜索到关于 AlphaGo 第 37 手的有关讲解视频进行学习,我个人对围棋几乎一窍不通。

总之,人们之所以如此震惊,是因为这是人类绝不会下的一手棋,而 AlphaGo 却这样下了。因为在它的训练中,这手棋似乎是个好主意,只不过碰巧这不是人类会采取的策略。因此,这再次体现了强化学习的力量。从理论上讲,如果我们继续在语言模型中扩展这种范式,我们实际上可以看到其等效性。而具体会是什么样子,目前还不得而知。

那么,以人类都无法企及的方式解决问题意味着什么?如何才能比人类更擅长推理或思考?如何超越仅仅是一个会思考的人类?也许这意味着发现人类无法创造的类比。或者,这可能是一种全新的思考策略。这确实有点难以想象。也许这是一种全新的语言,甚至根本不是英语,也许它发现了一种更适合思考的语言,也许它会选择另一种语言来思考,或者创造出自己的语言。因此从原则上讲,系统的行为更加难以界定。它可以自由采取任何有效的方式。

而且它还能逐渐偏离其训练数据的分布。但这一切只有在拥有大量多样化的问题集时才能实现,这些策略可以在这些问题中得到完善和优化。因此,这正是当前前沿大语言模型研究的重点所在。它试图创建那些规模庞大且多样化的提示分布。这些就像是大型语言模型可以练习思考的游戏环境。这有点像编写这些练习题。我们必须为所有知识领域创建练习题。如果我们有大量练习题,模型就能通过强化学习掌握这些内容,并生成类似的图表,但这是在开放思维领域而非围棋这样的封闭领域。


  1. alphago paper: https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf ↩︎

相关文章:

  • AD学习(1)
  • Doris-2:单虚拟机上非docker化安装Doris实验环境
  • 【算法笔记】树套树
  • CNN核心机制深度解析:卷积池化原理 PyTorch实现经典网络
  • GPU虚拟化
  • 在Pnetlab6上绕过TPM、安全启动和 RAM 检查安装windows 11笔记
  • 管理数据洪流:自动化处理与归档每日数据文件的策略与实践
  • 嵌入式学习--江协stm32day4
  • Python地理数学可视化:基于函数生成真实感地形
  • STM32CubeMX-H7-20-ESP8266通信(下)-双单片机各控制一个ESP8266实现通信
  • 【Erdas实验教程】016:遥感图像空间增强(卷积增强)
  • 探秘Transformer系列之(36)--- 大模型量化方案
  • word操作(持续更新)
  • 【C/C++】EBO空基类优化介绍
  • RabbitMQ 的高可用性
  • 机器学习用于算法交易(Matlab实现)
  • ubuntu 安装 sougou
  • JAVA学习 DAY4 DOS操作讲解及实例
  • 深入剖析AI大模型:用神经网络构建医疗影像辅助诊断系统
  • Y1补题报告3 上
  • 网站建设个体营业执照/中国网民博客 seo
  • 自己怎么找回智慧团建密码/网站搜索引擎优化方案的案例
  • 那个网站教宝妈做辅食/郑州网络推广报价
  • pc做网站服务器吗/新网站seo外包
  • wordpress 删除gravatar/余姚关键词优化公司
  • 常宁网站建设常宁网站建设/百度指数有哪些功能