当前位置: 首页 > news >正文

【第四章:大模型(LLM)】01.Embedding is all you need-(6)从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)

第四章:大模型(LLM)

第一部分:Embedding is all you need

第六节:从 Word2Vec 到推荐/广告系统,再到大语言模型(LLM)


一、引言:一切的起点是“向量表达”

在自然语言处理中,词是离散的符号。传统方法使用 One-hot 编码 表示词语,维度高且无法表达词之间的语义关系。
Word2Vec 的出现,标志着从离散符号到稠密向量(Embedding)的里程碑跃迁。

向量化不仅让机器“理解”语言,还为后续推荐系统、广告排序、LLM 模型提供了统一的特征表达方式。Embedding 不仅仅是技术细节,它是现代人工智能表示学习的核心引擎。


二、Word2Vec:构建语义空间的起点

1. 基本原理

Word2Vec 包括两个训练目标:

模型输入输出预测特点
CBOW上下文词预测当前中心词适合大语料、高频词建模
Skip-Gram当前中心词预测上下文词适合小语料、低频词建模

2. 模型结构简化解释:

  • 词语通过 嵌入矩阵 W 映射为向量;

  • 然后计算概率分布(softmax)预测上下文;

  • 通过最大化 log-likelihood 进行训练;

  • 输出是一个词典中每个词对应的 稠密向量表示(embedding)


三、Embedding 在推荐系统中的应用

1. 核心思想:推荐系统也有“语言”

  • 用户行为序列 = 一个句子

  • 商品/内容 = 一个个“词”

  • 用户点击序列中的商品,也可用 Skip-Gram/CBOW 训练模型;

  • 得到的商品向量可用于相似度召回或冷启动补全。

2. 实际落地应用

案例1:淘宝推荐系统
  • 淘宝构建了商品点击序列,训练 item2vec;

  • 相似商品召回性能提升,Cold Start 问题减轻。

案例2:YouTube 推荐系统(Covington et al., 2016)
  • 利用用户历史行为 Embedding 得到 user vector;

  • 与 candidate item vector 做匹配(点积或 MLP);

  • 多阶段结构(候选召回 + 精排)均用到了 Embedding。

3. 多模态推荐

  • 使用文本 Embedding + 图像特征 Embedding;

  • 在视觉电商推荐中尤为常见;

  • 嵌入空间支持“跨模态”相似度计算。


四、广告系统中的Embedding表示

1. 问题背景

广告系统包含大量高维稀疏离散特征:

  • 用户属性(性别、年龄、兴趣标签);

  • 广告属性(广告主、品类、关键词);

  • 上下文(时间、设备、APP ID)。

使用 One-hot 编码维度极高,不适合直接进入模型。

2. 嵌入表示方法

  • 每个稀疏特征都有一个 Embedding Lookup 表;

  • 输入时映射为低维向量(如 16~64 维);

  • 多个 Embedding 向量拼接后进入神经网络。

3. 工程落地模型

模型名称特点
Wide & Deep线性模型 + 深层网络;支持记忆与泛化
DeepFMFM自动建交叉特征 + DNN特征提取
DIN / DIEN动态兴趣提取模型,基于用户行为序列
AutoInt注意力机制自动学习特征交叉


五、Embedding 到 LLM 的跃迁:统一的语义基础

1. Token Embedding 是 Transformer 的入口

Transformer 模型(如 BERT、GPT)将文本中的 token 映射为向量,这是模型的第一个计算步骤。

  • Token → Embedding Lookup;

  • 通常与 Position Embedding 相加后输入网络。

2. Positional Embedding

由于 Transformer 没有循环结构,需加位置信息。

  • Sinusoidal:固定函数构造;

  • Learnable:模型训练时自适应学习。

3. 从静态到动态的语义学习

模型特点
Word2Vec静态 Embedding,每个词语唯一向量
BERT上下文相关的动态向量表示(双向 Transformer)
GPT利用解码器结构动态生成文本与上下文语义

4. 应用场景迁移

  • 推荐系统使用上下文 Embedding 学习用户兴趣;

  • LLM 使用多层 Transformer 构造更复杂的上下文依赖;

  • 表示学习的思路不变,复杂度和上下文能力大幅提高。


六、从Word2Vec到LLM:演进路径总结

阶段模型特点与用途
词向量阶段Word2Vec学习词的语义空间表示
推荐/广告阶段item2vec, DeepFM用户/商品/广告等高维特征低维嵌入
表达式学习阶段BERT, GPT上下文相关的动态嵌入,支持复杂推理与生成
多模态通用阶段CLIP, BLIP图文联合嵌入,向大模型统一表示演进


七、小结:Embedding是AI的语言

从 Word2Vec 到推荐系统、广告排序、再到 GPT、ChatGPT、Gemini 等大语言模型,Embedding 技术一直是连接不同 AI 系统的桥梁。它不仅提升了表示能力,更为理解、推理、生成提供了统一的语义基础。

可以说:

“Embedding is not just a component; it is the soul of modern AI.”

http://www.dtcms.com/a/298223.html

相关文章:

  • Linux下提权root权限
  • Asp.net core mvc中TagHelper的GetChildContentAsync和Content区别
  • GC8871刷式直流电机驱动器深度解析:3.6A驱动与内置电流检测技术
  • 虚拟地址-物理地址
  • leetcode110:判断平衡二叉树(两种思路对比)
  • 渗透高级-----测试复现(第三次作业)
  • 【GoLang#2】:基础入门(工具链 | 基础语法 | 内置函数)
  • 基于STM32汽车自动智能雨刷检测雨滴系统设计
  • 汽车免拆诊断案例 | 2010款奔驰E200 CGI车EPS OFF灯异常点亮
  • 数据类型选择:存储效率与查询性能的平衡
  • 【redis】缓存穿透、缓存击穿、缓存雪崩区别
  • Java学习第七十三部分——Redis
  • 前端面试问题
  • 安卓小说阅读软件推荐
  • 深入解析HBase如何保证强一致性:WAL日志与MVCC机制
  • [尚庭公寓]14-找房模块
  • 手写A2C(FrozenLake环境)
  • 直播美颜SDK动态贴纸模块开发指南:从人脸关键点识别到3D贴合
  • kiro的介绍和安装
  • 7.文件操作:让程序读写文件 [特殊字符]
  • CentOS 7.9 + GCC9 离线安装 IWYU(Include What You Use)
  • Linux库——库的制作和原理(1)_回顾动静态库、制作使用库
  • 【服务器与部署 26】配置管理实战:Ansible、Puppet自动化配置管理让运维效率提升10倍
  • 电磁兼容二:共模和差模问题
  • 【06】C#入门到精通——C# 多个 .cs文件项目 同一项目下添加多个 .cs文件
  • Spring Boot 整合 MyBatis 与 Druid 数据源全流程
  • 《整合Spring Cache:本地缓存、Redis与Caffeine对比实践》
  • 7.25总结
  • 详解Python标准库之内置函数
  • 20255年第四届创新杯(原钉钉杯)参考论文+标准答案发布