当前位置: 首页 > news >正文

06.概念二:神经网络

参考视频:不需要懂的神经网络


先回顾一下,这个transformer架构的整体框架

 

大模型的第二个概念,就是不得不说的神经网络
但实际上,神经网络在大模型训练当中,并不是需要很深的理解和背景知识的

大模型主要是基于transformer架构。而神经网络,其实是一种训练的逻辑,它已经被证明了非常好用。像我自己训练大模型,但是我并不需要掌握太深的这个神经网络的知识,而且神经网络的真正底层也没有人能说得明白。如果你不是一个要在神经网络里去钻研的专家,如果只是想开发大模型,那没有关系,只需要跟着我这个视频了解它基本的逻辑,就可以了。

那么,这个参数出现在哪儿?它具体怎么工作的?那么出现以后的效果如何?首先我们看一下,其实下面这个白色的部分,就是传统意义上的神经网络,它模拟了很多这个圆点就是神经元。那么,输入和输出一层一层的往下走,比如一个信号进入神经元,那它是该进入这个?还是进入这个?还是说都可以进入?进入这个之后,那么下一步应该进入哪个?最终应该输出哪个?

我们单独把一个简单的两两对应的神经元拉出来看一下,这个神经元代表数字0.54、0.63,然后,分别连接下一步,这就是一个简单的神经网络。可以这样理解,这个圆点中的东西,就是我们的样本token文字的初始化数值。这些线,就是我们的训练过程当中要学习的参数。那么,它们分别做矩阵相乘,相乘之后会得出一个结果。这个结果有高有低,那么就是它作为激活下一层神经元的一个权重值。这些值,在模型训练过程中是要不断的更新的,这个会更新、这个会更新、这个也会更新。那么,实际的应用当中,不仅仅是四层,有很多很多层,它们同步更新的。

那我们看一下,哪些部分会涉及到神经网络里面的神经元。涉及到的部分,也就是我们大模型的参数所出现的部分了。简单总结一下,我们在文字转数字的时候,我们有一个向量查找表,那个向量查找表是在模型训练中不断的更新的,它会根据语义学习的关系,不断更新每一个文字在我们所定义的维度下的那些向量值。最初我们是随机初始化的,那么随着模型学习它会更新。

之后,在这个layer normalization层归一化的时候,一个非常简单的、模型自己学习的一个参数值。然后,在这个Feed forward network全连接或者叫前馈网络,那么它这里面也有一层可以学习的参数。然后,我们在最后一个线性变换中,有一层是可以学习的参数。那么在多头注意力机制当中呢,最重要的几个参数,就是我们的样本文字乘以我们的WQ、WK、WV,就是我们这个要转换的这些权重,这些东西就是可以理解为我们的这些线,这些线在学习中不断的更新的这些值。

然后,在图中的矩阵相乘这一部分及其之后的计算,没有什么参数可学(图中五角星的部分,都是含有参数的部分)。整个走出注意力机制模块以后,我们把多头注意力机制并合并成一个单头之后,还有一个线性变换,这个蓝色的部分都是有参数的。实际上我们的参数出现在整体训练中的很多个不同的地方,而且我们在一个transformer模块下,我们可以设置多个模块儿,那么每一次循环,就会有一批参数的记录。进入第二个模块儿,就有一批参数会跟着进来。

那么,这就是多层、一层一层的神经元结构。我们理解到这个基础上就已经够了。我们再看一下,神经网络里面这些学习到的权重或者参数,它们的表现形式是什么样的?

我们知道大模型参数有上千亿,简单拿一个tensorboard上的一个图,这个有784个维度。实际上784个维度,我们人脑无法想象。它的这些不同颜色的点,就是它的一些学习更新的权重值,映射到了三维空间中,这样的一个趋势。那高维映射到三维的话,它会损失精度,但是依然保持了趋势。那不同颜色,就是有一些语义,或者说如果训练文字的话,就是文字语义。如果是训练图片,可能是图片临近像素之间,这种关系比较近的这些区间。比如这个紫色和粉色的关系比较近,它们会在学习过程之后,这些参数的权重会非常集中。

之前讲过,每一个点可以看作是一个向量的一个坐标,那它们越近,也就是说它们的点积相乘、或者叫矩阵相乘的结果很大,所以它们非常近。那么这个,就是我们神经网络里面通过不断循环训练,所产生的效果。所以说,你需要懂神经网络的逻辑,但你不需要去深究它。

接下来,我们研究一下transformer里面这个layer normalization和softmax的概念!

相关文章:

  • 阿里云云效对接SDK获取流水线制品
  • mock库知识笔记(持续更新)
  • ⚡ Linux 系统安装与配置 Vim 编辑器(包括 Vim 插件管理器)
  • 【OSS】 前端如何直接上传到OSS 上返回https链接,如果做到OSS图片资源加密访问
  • VTK|Z轴拉伸功能的实现
  • maven项目编译时复制xml到classes目录方案
  • 2025-05-28 Python-List-二分法
  • 第一节 51单片机概述
  • 班级管理系统
  • vue 如何对 div 标签 设置assets内本地背景图片
  • 【网络安全】——Modbus协议详解:工业通信的“通用语言”
  • Spring AI 1.0 GA 深度解析:构建企业级AI应用的全栈实践指南
  • Linux 常用命令 -md5sum【计算和校验文件的MD5哈希值】
  • Xamarin入门笔记(Xamarin已经被MAUI取代)
  • 模型量化知识
  • 【数据库系列】bulk_save_objects 与 bulk_insert_mappings 对比
  • 利用openwrt路由器和随身WIFI搭建CPE
  • 使用 Unsloth 快速微调 LLMs 实用指南
  • 【机器学习基础】机器学习入门核心算法:隐马尔可夫模型 (HMM)
  • # Python 语音助手本地的ollama实现
  • 网站建设与维护心得/长沙百度关键词排名
  • 设计专业考研平面素材网站/什么是核心关键词
  • 三网合一网站建设公司/竞价推广账户竞价托管收费
  • b2b电子商务平台官网/百度推广账户优化
  • 织梦网站模板怎么做/只需要手机号的广告
  • 如何查看vs中建设好的网站/原创软文