当前位置：首页 > news >正文

一周热点：基于向量的推理，而非文本

news 2025/9/23 13:10:34

背景介绍

大型语言模型（LLMs）：大型语言模型（如GPT-2）可以通过生成思维链（CoT）来提高性能。CoT是将回应提示的过程分解为一系列步骤的中间文本标记。然而，大部分CoT文本旨在保持流畅性（例如“a”、“of”、“we know that”），而非推理（例如“a² + b² = c²”）。这导致了效率低下。

新动态

Coconut方法：加州大学圣地亚哥分校和Meta的Shibo Hao、Sainbayar Sukhbaatar及其同事推出了Coconut（连续思维链），这是一种训练大型语言模型（LLMs）将思维链处理为向量而非单词的方法。

关键见解

模型结构：大型语言模型（LLM）可以分为嵌入层、Transformer和分类层。为了从输入文本生成下一个文本标记，嵌入层对文本进行嵌入；给定文本，Transformer输出一个隐藏向量；分类层将向量映射到文本标记概率。基于这些概率，解码算法选择下一个要生成的标记，该标记反馈到输入文本序列中以生成下一个向量，依此类推。
向量的优势：

http://www.dtcms.com/a/44995.html

相关文章：

【最后203篇系列】010 关于矩阵的一点思考

PostgreSQL 创建表格

JDK17安装方法/如何安装JDK17/环境变量配置

Android Activity启动流程详解

第四章 activiti流程 “BPMN2.0规范解密室”

Transformer 代码剖析10 - TransformerEmbedding （pytorch实现）

大白话css第五章CSS新特性与前沿技术、跨平台与跨设备适配

FakeApp 技术浅析（二）：生成对抗网络

传承式的传统企业新零售数字化转型的逆袭之路！

在已安装二进制movit2的情况下使用自编译moveit2

Redis分布式锁的实现（Redission）

弱监督语义分割学习计划(2)-使用CoT进行Open Vocabulary Label简单实现类激活图

【AD】3-10 原理图PDF导出

【多模态大模型论文精读】MOSHI：双工实时语音对话大模型

java之运算符

大白话TypeScript 第九章：TypeScript 项目的优化、测试与发布

计算机网络概述

Apache IoTDB 树表双模型直播回顾（下）

专线物流公共服务平台：全面提升专线物流效率

【linux】详谈环境变量

基于Transformers的文本相似度

小红书自动评论

大模型—如何从huggingface上下载并调用模型

每天一个Flutter开发小项目 (8) : 掌握Flutter网络请求 - 构建每日名言应用

RuoYi框架介绍，以及如何基于Python使用RuoYi框架

DeepSeek 使用窍门与提示词写法指南

Spark基础篇 RDD、DataFrame与DataSet的关系、适用场景与演进趋势

聊聊Java的SPI机制

SocketCAN(linux中启用CAN)

fs 文件系统模块