当前位置: 首页 > news >正文

阅读笔记——理解什么是LLM大语言模型

阅读笔记:
理解LLM
deepseek创新了什么
什么是多模态

什么是token

​​

  1. 定义​​:Token是LLM处理文本的最小单位,相当于语言的"原子"
  2. ​​类比​​:
    中文:1个token ≈ 1个汉字或常见词(如"模型"可能为1个token)
    英文:1个token ≈ 4个字母(如"apple"可能拆为"app"+“le”)

每个token都会在模型中生成三个核心向量
在这里插入图片描述
○ Q 是查询向量

○ K 是线索向量

○ V 是答案向量

候选token:在自注意力机制中,​​候选token​​ 是指当前token在计算注意力权重时,所有可能与之发生交互的其他token。

api

大语言模型的 本质就是文字接龙 , 相对应的使用大模型也比较简单. 可以参见deepseek的文字接龙 api 请求:
在这里插入图片描述

tools 工具支持:

大模型对 function calling 的支持,即大模型可以调用各种外部工具

为什么说LLM是无状态的

LLM有自注意力机制能​​动态关联上下文​​(通过Q/K/V向量),但LLM却被认为​​无状态​​。这看似矛盾,实则反映了不同层级的特性:
在这里插入图片描述
这时候就有一个问题,既然LLM是无状态的,不能记住跨序列的多次输入,那么LLM是如何持续关联一个对话的上下文的?——增加一个外部记忆库(传统方案是增大一个序列的max_length)

相关文章:

  • 服务器带宽线路的区别(GIA、CN2、BGP、CMI等)
  • 技术为器,服务为本:AI时代的客服价值重构
  • 我在 Linux 进程管理中踩过的坑:僵尸、瞬时与不可中断进程实战实录
  • ffmpeg命令(二):分解与复用命令
  • 杆塔倾斜在线监测装置:电力设施安全运行的“数字守卫”
  • 工商业储能的“智慧大脑”:解密 Acrel-2000ES EMS 的核心功能与价值
  • GB/T 36140-2018 装配式玻纤增强无机材料复合保温墙体检测
  • GLSL texture()
  • 【深度学习-pytorch篇】3. 优化器实现:momentum,NAG,AdaGrad,RMSProp,Adam
  • 第十章 反射
  • 电动黄油枪行业数据分析报告2025-恒州诚思
  • Python 字典渲染字符串
  • node创建自己的CLI脚手架(强化基础)
  • 苍茫命令行:linux模拟实现,书写微型bash
  • ​​知识图谱:重构认知的智能革命​
  • 【Rust】Rust获取命令行参数以及IO操作
  • ABAQUS三维功能梯度多孔结构材料FGM轴压模拟
  • 第二章 1.6 数据采集安全风险防范之数据源鉴别及记录
  • API 与 SPI
  • ZooKeeper 命令操作
  • 网站建设公司优势/营销到底是干嘛的
  • 南京做网站哪家公司最好/竞价账户托管的公司有哪些
  • 东莞网站建设服务/网络推广产品要给多少钱
  • 宁波网站推广优化公司电话/竞价推广和seo的区别
  • WordPress多人聊天插件/黑帽seo什么意思
  • 凡科建站的建站后如何管理/北京网站设计公司