一周热点:基于向量的推理,而非文本
背景介绍
-
大型语言模型(LLMs):大型语言模型(如GPT-2)可以通过生成思维链(CoT)来提高性能。CoT是将回应提示的过程分解为一系列步骤的中间文本标记。然而,大部分CoT文本旨在保持流畅性(例如“a”、“of”、“we know that”),而非推理(例如“a² + b² = c²”)。这导致了效率低下。
新动态
-
Coconut方法:加州大学圣地亚哥分校和Meta的Shibo Hao、Sainbayar Sukhbaatar及其同事推出了Coconut(连续思维链),这是一种训练大型语言模型(LLMs)将思维链处理为向量而非单词的方法。
关键见解
-
模型结构:大型语言模型(LLM)可以分为嵌入层、Transformer和分类层。为了从输入文本生成下一个文本标记,嵌入层对文本进行嵌入;给定文本,Transformer输出一个隐藏向量;分类层将向量映射到文本标记概率。基于这些概率,解码算法选择下一个要生成的标记,该标记反馈到输入文本序列中以生成下一个向量,依此类推。
-
向量的优势: