当前位置: 首页 > wzjs >正文

咋做网站代码背景图桂林建站

咋做网站代码背景图,桂林建站,北京市工程建设招标投标交易系统,奉节网站建设公司一、TL;DR 探索了COT(chain-of-thought prompting)通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力在三个大型语言模型上的实验表明,思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现解释了一下为什么…

一、TL;DR

  1. 探索了COT(chain-of-thought prompting)通过一系列的中间推理步骤来显著的提升了LLM的复杂推理能力
  2. 在三个大型语言模型上的实验表明,思维链提示能够提升模型在一系列算术、常识和符号推理任务上的表现
  3. 解释了一下为什么COT有效,见3.3节:老实说我觉得全是猜测
  4. 给出了一些局限性:比如模型参数超过1000亿才work,cot并不是真正的模仿人类在推理等等;

二、方法介绍

本研究探讨了一种简单方法,基于两个想法,如何解锁大型语言模型的推理能力

  1. 算术推理技术可以从生成自然语言推理依据中受益,这些依据最终导向答案
  2. 大型语言模型通过提示实现上下文中的少样本学习

但上述两种方法都存在局限性

  1. 对于推理依据增强的训练和微调方法来说,创建大量高质量的推理依据成本高昂
  2. 传统few-shot提示方法,它在需要推理能力的任务上表现不佳

本文如何做?

  1. 探索了语言模型在推理任务中进行few-shot提示的能力,提示内容由三元组组成:[输入,思维链,输出]。思维链是一系列导向最终输出的中间自然语言推理步骤,我们称这种方法为chain-of-thought prompting

示例如下:

图1展示了一个模型生成思维链来解决一个它原本会答错的数学文字题的例子。在这种情况下,思维链类似于一个解决方案,以更好地捕捉它模仿逐步思考过程以得出答案的想法

本文做到的benchmark(COT效果最佳,比finetune后的模型还要好):

三、COT

3.1 具体怎么做举例

在解决复杂的推理任务时,例如多步骤的数学文字题时的思考过程,通常会将问题分解为中间步骤,并在给出最终答案之前先解决每个步骤,并在给出最终答案之前先解决每个步骤:

  1. 简在送给妈妈2朵花之后还剩下10朵……
  2. 然后在送给爸爸3朵之后,她将剩下7朵……
  3. 所以答案是7

3.2 COT的目标

  1. 赋予语言模型生成类似思维链的能力——一系列连贯的中间推理步骤,最终导向问题的答案
  2. 如果在少样本提示的示例中提供思维链推理的演示,足够大的语言模型可以生成思维链。

3.3 COT的优越性

  1. 首先,COT允许模型将多步骤问题分解为中间步骤,这意味着可以为需要更多推理步骤的问题分配额外的计算资源

  2. 其次,思维链为模型的行为提供了一个可解释的窗口,暗示了它可能是如何得出特定答案的,并为调试推理路径出错的地方提供了机会(尽管完全描述支持答案的模型计算仍然是一个开放性问题)。

  3. 第三,思维链推理可以用于解决数学文字题、常识推理和符号操作等任务,并且原则上可以应用于任何人类可以通过语言解决的任务

  4. 最后,通过在少样本提示的示例中加入思维链序列的示例,足够大的现成语言模型可以轻松地引发思维链推理

在实证实验中,我们将观察到思维链提示在算术推理、常识推理和符号推理中的涨点作用(本文的核心消融实验)。

四、 算术推理

我们首先考虑图1中形式的数学文字题,这些题目衡量了语言模型的算术推理能力。当使用5400亿参数的语言模型时,思维链提示在多个任务上的表现与针对特定任务进行微调的模型相当,甚至在具有挑战性的GSM8K基准测试上达到了新的最佳水平。

4.1 实验设置

基准测试:五个数学文字题基准测试:

  1. 数学文字题的GSM8K基准测试。

  2. 具有不同的结构的数学文字题的SVAMP数据集。

  3. 多样化的数学文字题的ASDiv数据集。

  4. 代数文字题的AQuA数据集。

  5. MAWPS基准测试(Koncel-Kedziorski等人,2016年)。 

标准的prompt:作为基线,我们考虑了由Brown等人提出的few-shot prompt。在这种方法中,语言模型在输出测试样本的预测之前,会先给出上下文中的输入 - 输出对示例。示例以问题和答案的形式呈现。模型直接给出答案,如图1(左侧)所示。

COT prrompt:我们提出的方法是在few-shot prompt的每个示例中加入与答案相关的思维链,如图1(右侧)所示。由于大多数数据集只有评估部分,我们手动编写了一组包含八个少样本示例的思维链用于提示——图1(右侧)展示了一个思维链示例,完整的示例集在附录表20中给出。

语言模型:评估了五种大型语言模型。

  1. GPT-3,使用了text-ada-001-3.5亿、text-babbage-001-13亿、text-curie-001-67亿和text-davinci-002-1750亿

  2. LaMDA,参数分别为4.22亿、20亿、80亿、680亿和1370亿参数。

  3. PaLM,参数分别为80亿、620亿和5400亿参数。

  4. UL2 200亿参数。

  5. Codex。

通过贪婪解码从模型中采样。对于LaMDA,我们在五个随机种子上报告平均结果,每个种子的示例顺序都不同。由于LaMDA实验在不同种子之间没有显示出很大的差异,为了节省计算资源,我们对所有其他模型报告了一个示例顺序的结果。

4.2 实验结果

思维链提示的最强结果总结在图4中,每种模型集合、模型大小和基准测试的所有实验输出都显示在附录的表2中。

有三个关键要点:

  1. 模型规模的新兴能力图4显示,思维链提示是模型规模的一种新兴能力。对于小模型,思维链提示并没有积极影响性能,只有在与约1000亿参数的模型一起使用时才带来性能提升。我们定性地发现,较小规模的模型生成的思维链虽然流畅,但缺乏逻辑性,导致其性能低于标准提示

  2. 复杂问题的性能提升更大:例如,在GSM8K(基线性能最低的数据集)上,对于最大的GPT和PaLM模型,性能提升了一倍以上。另一方面,对于SingleOp(MAWPS中最简单的子集,只需要一个步骤来解决),性能提升要么是负的,要么非常小(见附录表3)。

  3. 与先前最佳水平的比较:通过GPT-3(1750亿参数)和PaLM 5400亿参数的思维链提示,与通常在标记训练数据集上对特定任务进行微调的先前最佳水平相比,表现良好

4.3 消融实验

思维链提示带来的性能提升引发了这样一个自然的问题:是否可以通过其他类型的提示获得相同的性能提升。图5展示了一个消融研究,其中包含以下三种思维链的变体。

仅方程:思维链提示可能有帮助的一个原因是它生成了需要求解的数学方程,因此我们测试了一个变体,即模型在给出答案之前仅被提示输出一个数学方程。图5显示,对于GSM8K,仅方程提示并没有太大帮助,这意味着GSM8K中的问题语义过于复杂,无法直接翻译成方程,而无需思维链中的自然语言推理步骤。然而,对于只需要一步或两步解决的问题的数据集,我们发现仅方程提示确实提高了性能,因为方程可以从问题中轻松推导出来(见附录表6)。

仅变量计算:思维链允许模型在更复杂的问题上花费更多的计算。为了将变量计算的效果与思维链推理分开,我们测试了一个配置,即模型被提示输出一个点序列(...),其字符数等于解决该问题所需的方程的字符数。这种变体的表现与基线大致相同,这表明仅变量计算本身并不是思维链提示成功的原因,而且通过自然语言表达中间步骤似乎确实有其价值。

答案后的思维链:思维链提示的另一个潜在好处可能仅仅是这种提示使模型能够更好地调用预训练期间获得的相关知识。因此,我们测试了一种替代配置,即思维链提示仅在答案之后给出,以确定模型是否实际上依赖生成的思维链来给出最终答案。这种变体的表现与基线大致相同,这表明思维链中体现的顺序推理之所以有用,不仅仅是因为它激活了知识

第二,对于更复杂的问题,思维链提示的性能提升更大。例如,在GSM8K(基线性能最低的数据集)上,对于最大的GPT和PaLM模型,性能提升了一倍以上。另一方面,对于SingleOp(MAWPS中最简单的子集,只需要一个步骤来解决),性能提升要么是负的,要么非常小(见附录表3)。

第三,通过GPT-3(1750亿参数)和PaLM 5400亿参数的思维链提示,与通常在标记训练数据集上对特定任务进行微调的先前最佳水平相比,表现良好。图4展示了PaLM 5400亿参数如何通过思维链提示在GSM8K、SVAMP和MAWPS上达到新的最佳水平(尽管需要注意的是,标准提示已经超过了SVAMP的先前最佳水平)。在其他两个数据集AQuA和ASDiv上,带有思维链提示的PaLM达到了与最佳水平相差2%以内的水平(附录表2)。

五、常识推理

在一些乱七八糟的各个领域数据集上COT也是work的

流行的CSQA关于世界的常识性问题。StrategyQA要求模型推断出一个多跳策略来回答问题。BIG-bench项目(BIG-bench合作,2021年)中选择了两个专门的评估集:日期理解(从给定上下文中推断日期)和体育理解(判断与体育相关的句子是否合理或不合理)。最后,SayCan数据集自然语言指令映射到离散集合中的机器人动作序列

五、符号推理

符号推理,这种任务对人类来说很简单,但对语言模型来说可能具有挑战性。COT不仅使语言模型能够在标准提示设置中执行具有挑战性的符号推理任务,还促进了对推理时输入长度的泛化能力,使其能够处理比少样本示例中更长的输入。

五、讨论

探索了COT prompt作为一种简单机制,用于激发大型语言模型中的多步骤推理行为。

  1. 首先发现,思维链提示在算术推理方面大幅提升了性能,其改进幅度远强于消融研究,
  2. 常识推理的实验强调了思维链推理的语言特性使其具有广泛的适用性。
  3. 最后,我们展示了对于符号推理,思维链提示能够促进对领域外(OOD)更长序列长度的泛化能力

局限性:

  1. 尽管思维链模仿了人类推理者的思维过程,但这并不回答神经网络是否真正“在推理”
  2. 尽管在少样本设置中,手动为示例添加思维链的成本极小,但这种标注成本在微调中可能会变得难以承受
  3. 无法保证推理路径的正确性,这可能导致正确和错误的答案
  4. 思维链推理仅在大型模型中出现,这使得其在现实世界应用中的部署成本较高;进一步的研究可以探索如何在较小的模型中诱导推理能力。

文章转载自:

http://eklmYXNf.qjxxc.cn
http://iC4DB6fm.qjxxc.cn
http://9zKL2i6V.qjxxc.cn
http://I4M67EXv.qjxxc.cn
http://XrnniCLK.qjxxc.cn
http://K4CsbRIl.qjxxc.cn
http://0wZACoax.qjxxc.cn
http://UCPhoj7W.qjxxc.cn
http://FhjDsa8g.qjxxc.cn
http://khNpVBCQ.qjxxc.cn
http://YhtCO3F3.qjxxc.cn
http://aPla5MwE.qjxxc.cn
http://ZXwFl8bq.qjxxc.cn
http://TIJdnZJM.qjxxc.cn
http://4w9tAnoc.qjxxc.cn
http://JKW2PUmA.qjxxc.cn
http://b6rLoaCp.qjxxc.cn
http://jrwfC9Zk.qjxxc.cn
http://45Jnc4Lt.qjxxc.cn
http://8tXstfAb.qjxxc.cn
http://pXygY7Ip.qjxxc.cn
http://a0bkVTjY.qjxxc.cn
http://Vm2RGBQA.qjxxc.cn
http://LwPDLvaW.qjxxc.cn
http://O2998nJY.qjxxc.cn
http://1aKGQvTk.qjxxc.cn
http://5MaOo0rh.qjxxc.cn
http://HVyamqtc.qjxxc.cn
http://RNs4cClB.qjxxc.cn
http://QjjEwsKO.qjxxc.cn
http://www.dtcms.com/wzjs/754183.html

相关文章:

  • 用php建设一个简单的网站朝阳区网站开发公司
  • 阅读小说网站建设深圳网站建设公司信任湖南岚鸿信 赖
  • 网站规划书市场分析亚马逊在哪个网站做推广
  • dw2018网页制作步骤图文搜索引擎网站排名优化方案
  • 网站首页图片叫什么平面logo设计公司
  • 南宁网站建设地方企业建站用什么系统
  • 门户网站手机版udacity 网站开发
  • 网站建设总体说明网站推广的优劣
  • 网站制作网站推广建设银行网站怎么登陆密码
  • 网站源码下载平台商城建站模板
  • 免费php模板网站网站后台地址忘记了
  • 深圳市信任网站沙漠风网站建设6
  • 网站开发视频下载现在还有什么网站
  • 义乌网站开发产品类网站模板
  • 凌源网站建设最新新闻热点事件
  • 企业站模板精美的php个人网站源码
  • 个人网站建设课程介绍织梦装修网站模板
  • 登陆国外的网站要这么做idc主机托管
  • 网页设计灵感网站手机端网站的区别
  • 岳阳网站开发公司微信怎么自创小程序
  • 自己网站做seo免费的建站软件有哪些
  • 湛江购房网官方网站网站推广咋做的
  • 丽江网站建设 莱芜win10运行wordpress
  • 友情链接的网站图片wix做的网站
  • 做的网站空白了深圳网站建设公司哪个
  • 广东建设厅的工程造价网站公司行政负责做网站吗
  • asp网站 工具现在有哪些推广平台
  • 教育行业展示网站模板网络营销的基本概念
  • vs2012建设网站深圳市甘泉建设监理有限公司网站
  • 网站源码怎么打开海外营销网站