当前位置: 首页 > news >正文

AI大模型概念知多少

什么大模型什么是模型参数

1)现在的大模型要解决的问题,就是一个序列数据转换的问题:

输入序列 X =X=[x1 ,x2 ,...,xm ], 输出序列Y=[y1 ,y2 ,…,yn ]XY之间的关系是:Y=WX

“大模型”这个词:“大”是指用于训练模型的参数非常多,多达千亿、万亿;而“模型”指的就是上述公式中的矩阵W

在这里,矩阵W就是通过机器学习,得出的用来将X序列,转换成Y序列的权重参数组成的矩阵。

2)通俗地理解,就是参数特别特别多的机器学习模型,大模型到底有多大?GPT-3是1750亿个参数,据说GPT-4是有1.76万亿个参数。目前典型的主流大模型,是像GPT-3这样千亿规模的,小一些的是百亿规模的。

3)deepseek-r1:1.5b,qwen:7b,llama:8b,这里的1.5b,7b、8b代表什么?b是英文的billion,意思是十亿,7b就是70亿,8b就是80亿,70亿、80亿是指大模型的神经元参数(权重参数weight十bias)的总量,目前大模型都是基于Transformer架构,并且是很多层的Transformer结构,最后还有全连接层等,所有参数加起来70亿,80亿,还有的上千亿。

什么是token?

模型是无法直接处理文本的,只能处理数字,就跟ASCII码表、Unicode码表一样,计算机在处理文字时也是先将文字转成对应的字码,然后为每个字码编写一个对应的数字记录在表中,最后再处理。所以模型在处理文本时,第一步就是先将文本转换成对应的字码,也就是大模型中的token

什么是向量、矩阵、张量?

张量是一个多维数组,可以看作是向量和矩阵的更底层的表示,向量和矩阵是张量的特例。例如向量是一维的张量,矩阵是二维的张量。

张量可以有任意数量的维度,而不仅仅是一维(向量)或二维(矩阵)。张量在物理学中用来表示多维空间中的物理量,如应力、应变等。在深度学习中,张量用于表示数据和模型参数的多维结构。

参考 《深入理解Transformer技术原理 https://tech.dewu.com/article?id=109

相关文章:

  • leetcode日记(81)二叉树的中序遍历
  • Scala基础语法
  • 视频提取硬字幕,字幕擦除,字幕翻译工具推荐
  • 深入理解与配置 Nginx TCP 日志输出
  • 实训任务2.2 使用Wireshark捕获数据包并分析
  • 1. 树莓派上配置机器人环境(具身智能机器人套件)
  • 启动wsl里的Ubuntu24报错:当前计算机配置不支持 WSL2,HCS_E_HYPERV_NOT_INSTALLED
  • Qt调试功能使用方法
  • 【使用hexo模板创建个人博客网站】
  • 趣味学习法,助力消防设施操作员考试
  • Spring(五)容器-依赖注入的三种方式
  • C语言——位操作运算
  • electron + vue3 + vite 主进程到渲染进程的单向通信
  • Gravitino源码分析-SparkConnector 实现原理
  • HTML5的新特性有哪些?
  • 网络安全配置截图 网络安全i
  • 【AI赋能】AI工具图文创造指南:从主题到一键发布的完整指南
  • 动态ip和静态ip适用于哪个场景?有何区别
  • CODEGEN:一种基于多轮对话的大型语言模型编程合成方法
  • 永洪科技深度分析实战,零售企业的销量预测
  • 可以免费做会计题的网站/明星百度指数排行
  • 无锡做网站哪家好/杭州网络
  • 网站建设团购/西安百度推广外包
  • seo是网站搜索引擎上的优化/百度渠道开户
  • 福州建设厅网站/百度知道推广软件
  • 长沙市做网站/手机如何制作网页链接