当前位置: 首页 > news >正文

LLM表征的提取方式

LLM表征的提取方式

LLM(大语言模型)的表征是指模型处理文本后输出的向量(通常是高维实数向量),这些向量编码了文本的语义、语法、上下文关联等信息,是后续任务(如分类、检索、聚类、生成等)的核心输入。表征的提取方式直接影响其对下游任务的有效性,不同方式的设计与模型结构、预训练目标、下游任务需求密切相关。

在这里插入图片描述

一、基于特定Token的提取方式

LLM的输出通常是序列中每个Token的向量(如BERT的每个字/词向量,GPT的每个生成Token向量),但下游任务常需要单向量表征(如一句话的整体向量)。基于特定Token的提取方式,是从序列中选择一个“代表性Token”的向量作为整体表征。

1. [CLS] Token(适用于Encoder-only模型,如BERT)
  • 原理:Encoder-only模型(如BERT)在预训练时,会在输入序列前强制添加一个特殊Token [CLS](意为“Classification”)。该Token不对应任何实际语义,但其向量在预训练过程中专门学习“序列级语义”——通过与其他所有Token的注意力交互,捕捉整个序列
http://www.dtcms.com/a/323089.html

相关文章:

  • 【Python 高频 API 速学 ⑥】
  • 【Mac】MLX:Lora微调工作流
  • 【排序算法】①直接插入排序
  • QT第二讲-信号和槽
  • uniapp实现的圆形滚盘组件模板
  • ThingsBoard配置邮件发送保姆级教程(新版qq邮箱)
  • SkyWalking-2--Java Agent是什么?
  • Qt与嵌入式设备中的字节序问题
  • 客服Agent革命:智能客服系统的技术实现与效果评估
  • 八、《DaaS(设备即服务):企业轻资产化新路径》--从97.4%首期投入削减到AI算力高效迭代的范式革命
  • ​​​​​​​【Datawhale AI夏令营】多模态RAG财报问答挑战赛:学习笔记与上分思考
  • “黑影御剑飞行”视频引发的思考
  • 差分放大电路的四种接法
  • react-window
  • 组合期权:垂直价差
  • Playwright C# 自动登录并上传 Excel 文件 的可运行示例
  • Java 数据类型与内存模型:从字节到引用的底层逻辑
  • 数字图像处理基础——opencv库(Python)
  • C语言库中的字符函数
  • 基于 RAUC 的 Jetson OTA 升级全攻略
  • Vue和Springboot初步前后端分离建立项目连接(解决前后端跨域问题)
  • linux安装php
  • 机器学习 K-Means聚类 无监督学习
  • AI 算法优化实战指南:从理论到部署的全流程优化策略
  • VSCode添加Python、Java注释技巧、模板
  • 企业级web应用服务器TOMCAT入门详解
  • 2G内存的服务器用宝塔安装php的fileinfo拓展时总是卡死无法安装成功的解决办法
  • Atto Round 1 (Codeforces Round 1041, Div. 1 + Div. 2) C、D、E
  • 数码管的使用(STC8)
  • 美股高频分时Tick数据分钟级解析