当前位置: 首页 > news >正文

一周热点:基于向量的推理,而非文本

背景介绍

  • 大型语言模型(LLMs):大型语言模型(如GPT-2)可以通过生成思维链(CoT)来提高性能。CoT是将回应提示的过程分解为一系列步骤的中间文本标记。然而,大部分CoT文本旨在保持流畅性(例如“a”、“of”、“we know that”),而非推理(例如“a² + b² = c²”)。这导致了效率低下。

新动态

  • Coconut方法:加州大学圣地亚哥分校和Meta的Shibo Hao、Sainbayar Sukhbaatar及其同事推出了Coconut(连续思维链),这是一种训练大型语言模型(LLMs)将思维链处理为向量而非单词的方法。

关键见解

  • 模型结构:大型语言模型(LLM)可以分为嵌入层、Transformer和分类层。为了从输入文本生成下一个文本标记,嵌入层对文本进行嵌入;给定文本,Transformer输出一个隐藏向量;分类层将向量映射到文本标记概率。基于这些概率,解码算法选择下一个要生成的标记,该标记反馈到输入文本序列中以生成下一个向量,依此类推。

  • 向量的优势

http://www.dtcms.com/a/44995.html

相关文章:

  • 【最后203篇系列】010 关于矩阵的一点思考
  • PostgreSQL 创建表格
  • JDK17安装方法/如何安装JDK17/环境变量配置
  • Android Activity启动流程详解
  • 第四章 activiti流程 “BPMN2.0规范解密室”
  • Transformer 代码剖析10 - TransformerEmbedding (pytorch实现)
  • 大白话css第五章CSS新特性与前沿技术、跨平台与跨设备适配
  • FakeApp 技术浅析(二):生成对抗网络
  • 传承式的传统企业新零售数字化转型的逆袭之路!
  • 在已安装二进制movit2的情况下使用自编译moveit2
  • Redis分布式锁的实现(Redission)
  • 弱监督语义分割学习计划(2)-使用CoT进行Open Vocabulary Label简单实现类激活图
  • 【AD】3-10 原理图PDF导出
  • 【多模态大模型论文精读】MOSHI:双工实时语音对话大模型
  • java之运算符
  • 大白话TypeScript 第九章:TypeScript 项目的优化、测试与发布
  • 计算机网络概述
  • Apache IoTDB 树表双模型直播回顾(下)
  • 专线物流公共服务平台:全面提升专线物流效率
  • 【linux】详谈 环境变量
  • 基于Transformers的文本相似度
  • 小红书自动评论
  • 大模型—如何从huggingface上下载并调用模型
  • 每天一个Flutter开发小项目 (8) : 掌握Flutter网络请求 - 构建每日名言应用
  • RuoYi框架介绍,以及如何基于Python使用RuoYi框架
  • DeepSeek 使用窍门与提示词写法指南
  • Spark基础篇 RDD、DataFrame与DataSet的关系、适用场景与演进趋势
  • 聊聊Java的SPI机制
  • SocketCAN(linux中启用CAN)
  • fs 文件系统模块