当前位置: 首页 > news >正文

嵌入模型蓝图与扫盲

引入

作为一个AI开发者,Emebdding是经常接触的,然而大部分停留在文本嵌入模型做RAG匹配,并未对嵌入模型做一个全局的了解,这篇文章介绍嵌入模型技术蓝图以及蓝图中的概念进行扫盲。

技术蓝图

在这代码里插入图片描述

单模态

NLP自然语言处理是大家最了解的,比如传统向量匹配,进行问答,就是切片之后对使用文本嵌入模型进行向量化。

CV

计算机视觉,多多少少也接触到过,使用过,图像嵌入模型。

KGE

知识图谱领域,KnowledgeGraphEmbedding知识图谱嵌入是图谱领域中使用的Embedding模型,
是专门针对结构化知识的嵌入领域,有其独特的、与Transformer无关的核心算法思想(如翻译模型、张量分解模型)。

简单理解

Transformer 看作是处理文本序列的“主流兵器”。
而把 KGE模型(TransE, DistMult等) 看作是处理知识三元组的“专属神兵”。
CV计算机视觉是处理图像一类的图像嵌入模型。
语音识别,处理音频
单模态模型是基础,它们各自在垂直领域深耕。
跨模态模型是未来,它致力于融合这些单模态的能力,向着更通用、更接近人类理解方式的人工智能迈进。

自然语言处理嵌入模型扫盲(文本嵌入模型)

做什么?

这个场景大家肯定不说熟悉,基本不陌生,做RAG,做相似度匹配。

代表架构:Transformer

总结—“文本嵌入模型基本都是Transformer架构”——完全符合当前的技术现状。
在这里插入图片描述
当前几乎所有最先进、最常用的文本嵌入模型,都基于 Transformer 架构。 Transformer 凭借其强大的自注意力机制,已经彻底统治了现代自然语言处理领域。

详细NLP技术演进

1. “很老的传统模型”:Transformer 之前的世界

在 Transformer 出现之前,主流模型确实是 RNN、LSTM 和 GRU。

核心特点:顺序处理。它们像一个人一个字一个字地阅读,必须等前一个字处理完,才能处理下一个。这导致了:

计算效率低:无法并行计算,训练慢。

长程依赖问题:当句子很长时,模型容易“忘记”开头的信息,难以捕捉远距离词语之间的关系。

2. Transformer 的革命:自注意力机制

Transformer 的核心是自注意力机制

核心特点:全局感知。它不是顺序处理,而是可以同时关注输入序列中的所有词,并计算每个词与其他所有词之间的“关联度”。

优势1:强大的上下文捕捉能力。无论词语相隔多远,自注意力都能直接建立连接,从而更好地理解句子的完整含义。

优势2:极高的并行化能力。因为所有词是同时处理的,所以可以充分利用GPU等硬件进行并行计算,训练速度极大提升。

3. 为什么文本嵌入模型基本是 Transformer?

我们目前使用的文本嵌入模型,绝大多数都是在大型预训练语言模型 的基础上,通过特定任务(如对比学习)微调得到的。而这些预训练语言的基石,就是 Transformer。

BERT 家族(如 all-MiniLM-L6-v2 的“老师”BERT):使用 Transformer 的编码器,非常适合做文本理解任务,是生成高质量句子嵌入的主力。

GPT 家族:使用 Transformer 的解码器,更擅长文本生成。

所以,当您看到一个现代的文本嵌入模型时,几乎可以断定它的骨架是一个 Transformer。它之所以能很好地理解语义、生成高质量的向量表示,根本原因就在于其内部的自注意力机制。

总结一下:

过去时:RNN, LSTM -> 用于处理序列,但效率低且有长程依赖问题。

现在时:Transformer (自注意力) -> NLP 的基础架构,是当前所有主流文本嵌入模型的引擎。

Transformer与文本嵌入模型的关系

Transformer 架构,就是当今所有主流大语言模型(的GPT、DeepSeek、Qwen、豆包等)以及文本嵌入模型共同的核心引擎和基石。

为什么Transformer是目前LLM大语言模型以及文本嵌入模型的基石?

解决了核心瓶颈:

在它之前,RNN/LSTM等模型无法有效处理长文本依赖,且计算无法并行,效率低下。

Transformer的自注意力机制 一举解决了这两个问题,让模型能够真正地“通读全文”并深刻理解上下文。

提供了可扩展的骨架:

Transformer的编码器-解码器设计非常灵活。

主要走编码器路线:专注于“理解”任务。例如:BERT 系列、文本嵌入模型。它们非常适合做分类、阅读理解、生成句子向量。

主要走解码器路线:专注于“生成”任务。例如:GPT 系列、DeepSeek、Qwen、豆包。它们根据上文自动生成下一个词,从而实现对话、创作、推理等能力。

T5、BART 等模型则同时使用编码器和解码器,擅长摘要、翻译等“理解后生成”的任务。

催生了“预训练-微调”范式:

Transformer架构使得我们能够先用海量无标注数据(如整个互联网的文本)训练一个庞大的基础模型。这个模型学会了语言的通用语法、知识和逻辑。

然后,我们可以像给一个“通才”进行“职业技能培训”一样,用少量特定任务的数据对这个基础模型进行微调,就能得到各种专家模型,比如:

微调用于生成句向量的,就是 文本嵌入模型。

微调用于对话的,就是 聊天机器人。

微调用于写代码的,就是 代码助手。

总结:

目前我们大多数接触的都是基于Transformer架构衍生出来的产品,预训练+微调这种范式,诞生了各种专家模型,比如聊天机器人、代码助手、文本嵌入模型。

KGE知识图谱嵌入

做什么?

KGE最主要、最独特的作用是对知识图谱本身进行推理和补全。

想象一下,知识图谱就像一个庞大的、记录了世界知识的蜘蛛网,但这个网上有很多漏洞。KGE的作用就是预测并补上这些漏洞。

核心作用归纳

链接预测 - 核心中的核心

问题:知识图谱是不完整的,缺少大量事实。例如,我们知道(马云,创立,阿里巴巴),但可能缺少(马云,出生地,?)。

作用:KGE模型可以计算所有候选实体(如“杭州”、“北京”、“上海”)的得分,预测最有可能的尾实体是“杭州”。这就是在发现缺失的链接。

关系推理

问题:如何从已知事实中推断出新事实?

作用:通过学习到的向量表示,模型可以捕捉关系的逻辑规律。

对称关系:如果 (A, 夫妻, B) 成立,那么 (B, 夫妻, A) 也成立。模型会学到 夫妻 关系向量接近零向量,因为 A + 0 ≈ B 且 B + 0 ≈ A。

逆关系:(A, 雇主, B) 的逆是 (B, 雇员, A)。模型会学到 雇主 和 雇员 的向量近似相反。

组合关系:如果 (A, 出生于, B) 且 (B, 位于, C),那么可以推断 (A, 籍贯, C)。模型会学到 出生于 + 位于 ≈ 籍贯。

知识图谱补全

这是链接预测和关系推理的最终目的。通过不断预测缺失的链接,让整个知识图谱变得更加完整和丰富。

实体分类

问题:判断一个实体属于哪个类别。

作用:在向量空间中,同类别的实体会聚集在一起。通过聚类或分类算法,可以判断“苹果”和“香蕉”都是“水果”类别的实体。

推荐系统

问题:如何给用户推荐商品或内容?

作用:将用户和物品都视为知识图谱中的实体。通过分析用户与物品、物品与物品之间的关系(如购买、浏览、属于同一类别),在向量空间中寻找距离用户最近(最相关)的物品。

KGE 的意义

KGE的意义在于它解决了符号主义AI的核心难题。

难题:传统的知识图谱由离散的符号(实体、关系)组成,计算机无法直接计算“北京”和“中国”之间的逻辑关系。

KGE的解决之道:通过嵌入,它将符号逻辑世界和向量数值世界架起了一座桥梁。

可计算:符号变成了向量,逻辑关系变成了向量运算(如加法、点积),计算机可以高效处理。

泛化能力:即使某些关系没有在训练数据中明确出现,模型也能通过向量空间中的几何关系进行推测,具备了“举一反三”的能力。

与深度学习融合:使得符号知识能够被深度学习模型理解和利用,推动了符号主义与连接主义的融合,是迈向更通用AI的重要一步。

原理简单解释

KGE的原理可以用一个简单的比喻来理解:地图导航。

目标:将知识图谱中的所有实体和关系,映射到一张高维“地图”(向量空间)中。

核心思想:在这张地图上,一个真实的三元组 (头实体, 关系, 尾实体) 应该满足一个特定的几何关系。

以最经典的 TransE 模型为例:

规则:它规定的关系法则是 “平移”。

操作:如果你从“北京”这个点出发,沿着“是…的首都”这个关系向量所指的方向走一段路,你应该恰好到达“中国”这个点。

公式:向量(北京) + 向量(是…的首都) ≈ 向量(中国)

训练:模型通过不断调整所有实体和关系的向量位置,让所有真实的三元组都尽量满足这个“平移”规则,同时让虚假的三元组不满足这个规则。

其他模型:

TransR:认为不同的关系应该在各自的“子地图”上做平移。比如“地理关系”一张图,“职业关系”另一张图。

DistMult/ComplEx:它们的规则不是“平移”,而是“匹配度”。它们会计算 (北京, 是…的首都, 中国) 这个组合的“匹配分数”,目标是让真实三元组的分数远高于虚假三元组。

总结

知识图谱的这种符号数据(实体+关系),是无法直接被计算机分析计算的,
KGE的作用就是把结构化的知识,图谱三元组,实体+关系这样的符号,让他们通过embedding技术,创造一种向量几何空间,让知识图谱数据在向量几何空间中进行推理,计算。
PS:中国的首都,是北京,就是最常见的例子,通过KGE技术,进行链接预测,把中国的首都,链接到北京。

http://www.dtcms.com/a/466136.html

相关文章:

  • 中核华泰建设有限公司网站小游戏网站网址
  • 做网站技术服务费属于什么科目做ppt好用的网站有哪些
  • 简单网站建设方案icp备案查询官方网站
  • Python中内置的常用装饰器
  • 年度进化挑战:从“前端实现者”到“智能体协作者”与“复杂问题定义者”
  • 靠谱的CC公益站
  • 做网站哪家便宜如何做企业招聘网站
  • HI3798MV100 运营商机顶盒NAS LINUX OS - IP地址静态绑定指南
  • 外贸网站建设公司价格湛江建站程序
  • 第三章:字符串增强与模板字符串
  • 网站开发建设技术规范书没经验可以做电商运营吗
  • Jira:设置语言 / 创建史诗 / 创建冲刺 / 创建问题
  • CancellationToken与Abort
  • linux达梦数据库操作
  • [自荐]一款mac电脑历史剪切板工具,类似著名的Paste
  • 二级域名可以做不同的网站吗网站建设网络推广广告语
  • MapReduce简介
  • FreeType 2.7 – 卓越的 Linux 字体质量
  • 龙江建站技术wordpress 管理 主题
  • 企业网站建设 制作网站建设基本流程流程图
  • 【Homebrew安装 MySQL 】macOS 用 Homebrew 安装 MySQL 完整教程
  • 【图像处理基石】暗光增强算法入门:从原理到实战(Python+OpenCV)
  • Asp.net core Kestrel服务器详解
  • OpenFeign使用
  • 如何在鸿蒙中实现毫秒级数据检索?哈希表与二分查找的双引擎优化方案
  • 实现支持链式调用的 JavaScript 类
  • 中文wordpress模板免费seo教程分享
  • 如何用ps做网站顺德网站建设7starry
  • 京东agent之joyagent解读
  • 【第五章:计算机视觉-项目实战之生成式算法实战:扩散模型】3.生成式算法实战:扩散模型-(2)DDPM数据读取