当前位置: 首页 > news >正文

【从零构建LLM】第二章,embeddbing构建思路总结

【从零构建LLM】第二章,embeddbing构建思路总结

  • 1. 概述
  • 2. 理解embeddng
    • 2.1 文本词元化
    • 2.2 token转为tokenId
    • 2.3 tokenId转为token
    • 2.4 增加特殊的token代表所有未见过的词汇
    • 2.5 openai 采用 tiktoken作为 BPE
    • 2.6 使用sliding window进行采样
    • 2.7 token转embedding
    • 2.8 添加位置向量作为给transformer的输入

1. 概述

本文,作为笔者,学习《从零构建LLM》书籍的笔记,总结章节核心内容,方便理解与回顾,有些概念,在公账号对讲解,欢迎关注、点赞,未来有视频课程给大家学习。
在这里插入图片描述

2. 理解embeddng

本文从零构建LLM,分为三个阶段,第一阶段,构建一个LLM, 第二阶段训练模型,第三阶段进行微调,从第一阶段embedding

在这里插入图片描述

2.1 文本词元化

核心思想: 将连续的文本序列转化为离散的基本单元(即 token)”,中文固定译为 “分词” 或 “标记化”,在处理中文时可能表现为 “将句子拆分为单个汉字或词语”,处理英文时则常拆分为单词、标点等
在这里插入图片描述

2.2 token转为tokenId

在这里插入图片描述

2.3 tokenId转为token

在这里插入图片描述

2.4 增加特殊的token代表所有未见过的词汇

在这里插入图片描述

2.5 openai 采用 tiktoken作为 BPE

tiktoken 是 OpenAI 开发的一个快速 BPE(Byte Pair Encoding)分词器
BPE原理参考: https://mp.weixin.qq.com/s/YAtyHZ6IVECq39esigkfTg

tiktoken 是 OpenAI 开发的一个快速 BPE(Byte Pair Encoding)分词器,用于将文本转换为模型可以处理的 token(标记)序列。在处理大型语言模型(如 GPT 系列)时,准确计算 token 数量非常重要,因为:
计费基于 token 数:OpenAI API 的使用费用根据输入和输出的 token 数量计算。 上下文窗口限制:模型有最大 token 限制(如 GPT-4 为 8K/32K tokens),超过会导致错误。
性能优化:合理拆分文本可以提高处理效率。 核心功能
文本转 token:将文本转换为模型使用的 token 列表。
token 计数:精确计算文本的 token 数量,避免超出模型限制。
高效性能:用 Rust 实现,速度比纯 Python 库快得多

2.6 使用sliding window进行采样

在这里插入图片描述

在这里插入图片描述

2.7 token转embedding

在这里插入图片描述
在这里插入图片描述

2.8 添加位置向量作为给transformer的输入

在这里插入图片描述
添加位置向量,目的是捕捉同一个词汇在不同位置的影响
在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/416273.html

相关文章:

  • 如何选网站空间搬瓦工建设wordpress
  • 黑龙江省城乡和住房建设厅网站网站关键字 怎么设置
  • 做网站需要什么开发语言用阿里云服务器搭建wordpress
  • 网站的子域名服饰技术支持 东莞网站建设
  • 自助建站系统官方版网站建设广州哪家好
  • 9月27日星期六今日早报简报微语报早读
  • 网站后台模板安装显示不了网站服务器怎么配
  • 交互设计要学什么seo的排名机制
  • 企业网站如何做排名网站页面太多是否做静态
  • 自己做的微信网站经常被停止访问马鞍山做网站的公司
  • 沧州网站制作的流程php网站后台密码忘记
  • 珠海制作公司网站wordpress 文章不显示没有图片
  • 网站开发安全小贴士wordpress 4.2.2
  • 网站必须备案wordpress做网盘资源
  • 中英文的网站怎么建设福建最大的网络公司排名
  • 佰汇康网站建设自己做的网页怎么上传到网站吗
  • 高速信号/PCB过孔搭桥/回流路径
  • wordpress 建网站网页美工设计第一步需要做什么
  • 淘宝网站建设可行性分析东莞寮步最新通知
  • Python动漫可视化大屏系统 Flask+MySQL+Echarts 番剧数据分析 集数/评分/词云多维分析 大屏展示 源码 ✅
  • 罗湖做网站的公司哪家好seo分析师
  • 只做网站不做app牛商网做的网站有哪些
  • c++循环猜数字游戏
  • 北京网站优化合作商务网站建设个人总结
  • 佛山专业网站建设公司哪家好上海平台有限公司
  • 【仿生人形机器头】唇形同步
  • 成都企业网站监测网站定制
  • 郑州平台类网站关于网页设计
  • 西安响应式网站深圳市注册公司流程图
  • 常州网站建设企业网上怎么做网站