当前位置: 首页 > news >正文

【极速版 -- 大模型入门到进阶】Transformer: Attention Is All You Need -- 第一弹

第二弹 指路 Transformer: Attention Is All You Need – 第二弹

文章目录

    • 🌊 Transformer 模块概述 -- 简化版本
      • 【1. Tokenization】把文字变成 Token ❄️
      • 【2. Input Layer】理解每个 Token (从语义和位置上) 🔥
      • 【3. Attention】考虑 Token 上下文 -- contextuallized token embedding
      • 【4. Feed Forward】整合思考
      • 【3 & 4 Transformer Block】反复思考
      • 【5 Ouput Layer】输出概率


🌊 Transformer 模块概述 – 简化版本

【1. Tokenization】把文字变成 Token ❄️

  • https://platform.openai.com/tokenizer

【2. Input Layer】理解每个 Token (从语义和位置上) 🔥

  • 意思相近的 Token 会有接近的 Embedding,除了语义,位置上也包含有信息

【3. Attention】考虑 Token 上下文 – contextuallized token embedding

  • 如下图的例子,同一个 token – 在不同的上下文中应该具有不同的理解
  • 步骤一:先找出相关的 token,利用相关性计算程式;可能有不同的相关性存在,所以实际大多使用多个 (16个) 计算相关的程式,也就是常说的 multi-head attention
  • 步骤二:集合相关的资讯

【4. Feed Forward】整合思考

  • 把 multi-head attention 的结果进行汇总,得到一个 embedding 的结果

【3 & 4 Transformer Block】反复思考

  • Attention + Feed Forward 操作,构成一个 Transformer Block
  • 构建网络时,会叠加多个 Transformer Block 进行反复思考

【5 Ouput Layer】输出概率


相关文章:

  • 织梦网站维护html网页制作用什么软件
  • 做教程网站资源放哪里有怎么申请域名建网站
  • 网站如何做电脑销售电商平台运营
  • seo关键词优化软件排名赣州seo优化
  • 店铺设计网站推荐企业文化墙
  • 信宜市建设局网站营销策划运营培训机构
  • 基于python大数据的旅游可视化及推荐系统
  • JavaScript中var、let和const的区别
  • 深入理解分布式事务Saga,从入门到面试热点分析详解
  • 05-021-自考数据结构(20331)- 动态查找-例题分析
  • [首发]烽火HG680-KD-海思MV320芯片-2+8G-安卓9.0-强刷卡刷固件包
  • 计算机Python程序代码Java编写web系统c++代做qt设计接单php开发
  • 可发1区的超级创新思路(python\matlab实现):MPTS+Lconv+注意力集成机制的Transformer时间序列模型
  • 【Ollama】大模型运行框架
  • C++进阶——位图+布隆过滤器+海量数据处理
  • Docker使用ubuntu
  • SQLMesh调度系统深度解析:内置调度与Airflow集成实践
  • 洛谷题单1-P5705 【深基2.例7】数字反转-python-流程图重构
  • 【附JS、Python、C++题解】Leetcode面试150题(11)H指数
  • DeepSeek分析仿写选题应该怎么做?
  • Hyperlane框架临时上下文数据管理:提升Web开发效率的利器
  • 【导航定位】GNSS数据协议-RINEX OBS
  • JavaScript函数式编程思想
  • Windows 图形显示驱动开发-WDDM 2.4功能-GPU 半虚拟化(十一)
  • 前端基础知识汇总
  • 大模型 rag 技术浅析(一)