当前位置: 首页 > news >正文

AI大模型-深度学习相关概念

NVIDIA-GPU

深度学习GPU版本

标量 / 向量 / 矩阵 / 张量

你提的问题很关键,这些概念是理解大模型数据流转和计算逻辑的基础。简单说,它们是不同维度的“数值容器”,在大模型中分别承担着存储单个参数、单个特征、批量特征和高维复杂特征的角色。

1. 标量(Scalar):单个数值,0维

标量是最简单的“数值容器”,只有大小,没有方向,属于0维数据。

  • 核心定义:单个实数或整数,比如1.5、3、0.001。
  • 大模型举例
    • 学习率(Learning Rate):比如训练时设置的0.001,控制模型参数更新的步长。
    • 损失值(Loss):每次模型迭代后输出的“误差分数”,比如0.3,代表预测结果与真实结果的差距。
    • 困惑度(Perplexity):评估语言模型生成文本流畅度的指标,比如12,数值越低模型效果越好。

2. 向量(Vector):有序数值列表,1维

向量是“排成一列(或一行)的数值”,有方向和大小,属于1维数据,维度等于数值的个数。

  • 核心定义:用方括号包裹的有序数组,比如[1.2, 3.4, 5.6],这个向量的维度是3。
  • 大模型举例
    • 词嵌入(Token Embedding):大模型中每个“词/字(Token)”都会被转换成向量,比如GPT-3中每个Token对应12288维的向量,用来表示这个词的语义信息。
    • 输出Logits向量:模型预测时,会输出一个与“词汇表大小”相同维度的向量,比如 vocab_size=50257 时,向量维度就是50257,每个数值代表对应词的“预测分数”。

3. 矩阵(Matrix):二维数值数组,2维

矩阵是“排成多行多列的数值表格”,属于2维数据,维度用“行数×列数”表示。

  • 核心定义:用大括号或方括号包裹的二维数组,比如[123456]\begin{bmatrix}1 & 2 \\ 3 & 4 \\ 5 & 6\end{bmatrix}135246,这个矩阵的维度是3×2(3行2列)。
  • 大模型举例
    • 批量词嵌入矩阵:当处理“一批(Batch)”文本时,比如一次输入32个Token,每个Token是12288维向量,就会形成32×12288的矩阵, rows=批量大小,cols=嵌入维度。
    • 注意力权重矩阵:在Transformer的自注意力(Self-Attention)中,Query(查询)和Key(键)会计算出一个“序列长度×序列长度”的矩阵,比如序列长度为512时,矩阵维度是512×512,每个数值代表两个Token之间的“注意力强度”。

4. 张量(Tensor):≥3维的数值数组

张量是对标量、向量、矩阵的“维度扩展”,只要维度≥3,都可以称为张量,维度用“阶数”描述(3维=3阶张量)。

  • 核心定义:多维度的数值集合,比如3维张量可以理解为“多个相同维度的矩阵堆叠”,维度表示为“深度×行数×列数”(或其他顺序,需看数据格式)。
  • 大模型举例
    • 批量图像张量:如果大模型处理图像(如多模态模型),输入的批量图像会是4维张量,格式通常为“Batch×Channel×Height×Width”(BCHW)。比如32张RGB图像(3通道)、分辨率224×224,对应的张量维度就是32×3×224×224。
    • 模型中间特征张量:Transformer层的输出通常是3维张量,维度为“Batch Size×Sequence Length×Hidden Dimension”(批量大小×序列长度×隐藏层维度)。比如批量32、序列长度512、隐藏层维度12288,张量维度就是32×512×12288,存储了整批文本经过当前层后的特征信息。

四者核心对比表

概念维度(阶数)核心特点大模型典型应用场景
标量0维单个数值,无方向学习率、损失值、困惑度
向量1维有序列表,1个索引定位单个Token的词嵌入、输出Logits
矩阵2维表格结构,2个索引定位批量词嵌入、注意力权重矩阵
张量≥3维多维度集合,≥3个索引定位批量图像数据、Transformer层特征
http://www.dtcms.com/a/542183.html

相关文章:

  • 网站建设有前途wordpress汉化自适应主题
  • 统计 vs 机器学习:从参数到模式识别的转变
  • 做网站时版权怎么写青岛最新发生的新闻
  • 做自媒体的网站名字中英文网站如何做思路
  • 什么网站可以做单词书汽车之家汽车报价大全网页版
  • 廊坊永清网站建设什么网站可以做外贸
  • 贵州城乡建设厅城乡建设网站手机网站建设用乐云seo
  • 太原网站科技公司大专千万不要报软件技术
  • MCP | LLM | Python类型的Stdio/SSE/HTTP模式的简单示例
  • 网站备案账号密码哪儿有那种网站
  • 育贤网站建设wordpress默认小工具
  • 代做淘宝联盟网站网站通知发送邮件
  • 增强版计算机管理脚本
  • 动易网站后台管理系统wordpress homepage plugin
  • 招聘网站对比这么做网站开发实训的心得
  • 河南平台网站建设制作云南网络营销公司
  • 三维重建【0-C】3D Gaussian Splatting:相机标定原理与步骤
  • 好的建站平台简述网站建设的主要内容
  • 公司网站无法收录百度推广是干什么的
  • 可上传多个视频的网站建设沈阳制作网站建站
  • 百度提交网站多久收录怎么搭建个人博客
  • PE之文件结构
  • wordpress创建多站点小型教育网站的开发与建设
  • 如何构建构高性能、高可用、可扩展的集群?
  • 潍坊在线制作网站产品推广外包
  • 海淀教育互动平台seo高效优化
  • Java8:Lambda表达式
  • 医院网站建设 价格石家庄网站优化招聘
  • 【AIGC】2025:MV-Crafter: An Intelligent System for Music-guided Video Generation
  • 电脑版网站建设合同营销网站开发