当前位置: 首页 > news >正文

【从零构建LLM】第一章,embeddbing构建思路总结

【从零构建LLM】第二章,embeddbing构建思路总结

  • 1. 概述
  • 2. 理解embeddng
    • 2.1 文本词元化
    • 2.2 token转为tokenId
    • 2.3 tokenId转为token
    • 2.4 增加特殊的token代表所有未见过的词汇
    • 2.5 openai 采用 tiktoken作为 BPE
    • 2.6 使用sliding window进行采样
    • 2.7 token转embedding
    • 2.8 添加位置向量作为给transformer的输入

1. 概述

本文,作为笔者,学习《从零构建LLM》书籍的笔记,总结章节核心内容,方便理解与回顾,有些概念,在公账号对讲解,欢迎关注、点赞,未来有视频课程给大家学习。
在这里插入图片描述

2. 理解embeddng

本文从零构建LLM,分为三个阶段,第一阶段,构建一个LLM, 第二阶段训练模型,第三阶段进行微调,从第一阶段embedding

在这里插入图片描述

2.1 文本词元化

核心思想: 将连续的文本序列转化为离散的基本单元(即 token)”,中文固定译为 “分词” 或 “标记化”,在处理中文时可能表现为 “将句子拆分为单个汉字或词语”,处理英文时则常拆分为单词、标点等
在这里插入图片描述

2.2 token转为tokenId

在这里插入图片描述

2.3 tokenId转为token

在这里插入图片描述

2.4 增加特殊的token代表所有未见过的词汇

在这里插入图片描述

2.5 openai 采用 tiktoken作为 BPE

tiktoken 是 OpenAI 开发的一个快速 BPE(Byte Pair Encoding)分词器
BPE原理参考: https://mp.weixin.qq.com/s/YAtyHZ6IVECq39esigkfTg

tiktoken 是 OpenAI 开发的一个快速 BPE(Byte Pair Encoding)分词器,用于将文本转换为模型可以处理的 token(标记)序列。在处理大型语言模型(如 GPT 系列)时,准确计算 token 数量非常重要,因为:
计费基于 token 数:OpenAI API 的使用费用根据输入和输出的 token 数量计算。 上下文窗口限制:模型有最大 token 限制(如 GPT-4 为 8K/32K tokens),超过会导致错误。
性能优化:合理拆分文本可以提高处理效率。 核心功能
文本转 token:将文本转换为模型使用的 token 列表。
token 计数:精确计算文本的 token 数量,避免超出模型限制。
高效性能:用 Rust 实现,速度比纯 Python 库快得多

2.6 使用sliding window进行采样

在这里插入图片描述

在这里插入图片描述

2.7 token转embedding

在这里插入图片描述
在这里插入图片描述

2.8 添加位置向量作为给transformer的输入

在这里插入图片描述
添加位置向量,目的是捕捉同一个词汇在不同位置的影响
在这里插入图片描述

在这里插入图片描述

http://www.dtcms.com/a/415184.html

相关文章:

  • 青岛网站建设公司正不拦截网站的浏览器
  • 在不插网线的情况下实现宿主机和VMware虚拟机的双向通信(如使用vscode通过ssh进行远程开发)
  • 电脑网站设计公司新闻式软文经典案例
  • 北京公司网站建设推荐厦门网站建设xm37
  • 从文件上传到FastDFS小文件优化
  • 解码编程语言:穿越技术迷宫的指南【1】
  • 一般网站建设收费几年合同简约大气的ppt模板免费下载
  • 【Envi遥感图像处理】017:如何通过立体相对提取DEM?
  • 网站推广排名报价微网站 开发
  • 邦邻营销型网站建设做网站大概
  • 都匀网站制作网络推广策划案
  • 鸿蒙:使用AppStorageV2实现跨Ability共享
  • HarmonyOS SDK地图服务教程
  • C++:(四)类和对象(中)—— 构造、析构与重载
  • 鸿蒙系统权限分级提示设计:兼顾功能需求与用户选择权
  • 【sqllite3】Read error: SQLITE_BUSY: database is locked
  • 做网站建设需要做哪些工作室什么平台可以打广告做宣传
  • Python爬虫实战:获取金价查询网最新金价行情与数据分析
  • 长春网站建设seo推广方式方法
  • 【MySQL✨】MySQL 入门之旅 · 第八篇:数据排序与分组
  • deepseek Kotlin Flow 全面详解
  • MTK-Android13-Dialer 通话界面定制修改
  • 化妆品电子商务网站开发流程描述中山网站建设推荐
  • 宿州移动网站建设广州模板网站
  • 旅游景区网站建设哈尔滨发布信息的网站
  • RVC WebUI(Retrieval-based-Voice-Conversion-WebUI)配置
  • 在线制作简历网站网页结构布局
  • 建网站要备案东莞网站制作品牌祥奔科技
  • 棋盘覆盖问题
  • 大邑网站建设百合居装饰公司官网