当前位置：首页 > news >正文

从 Word2Vec 到 BERT：AI 不止是词向量，更是语言理解

news 2025/7/5 16:46:47

一、前言

在上篇文章中，我们介绍了Word2Vec以及它的作用，总的来说：

Word2Vec是我们理解NLP的第一站
Word2Vec将词变成了“向量”—— 终于可以用机器理解词语的相似度
我们获得了例如“国王 - 男人 + 女人 ≈ 女王” 的类比能力
我们可以将Word2Vec这种算法能力，应用到各种创新场景，例如基于Graph的推荐系统，后续如果小伙伴有需要，可以一起深入交流。

但同时也指出了它的不足：

一个词=一个固定向量（静态词向量）
上下文无感知：“苹果”无论是手机还是水果，向量相同
是词的映射，不是对语言的理解

那如果让我们来设计下一代的算法，什么最重要？

——我们需要“能读懂句子”的模型。

接下来我们一步步实现，直至引出bert。

二、Word2Vec是怎么工作的？

在上文，我们介绍到Word2Vec使用周围词预测中间词来获取词向量能力，这个被称为CBOW，同理也可以用中间词预测周围词，这个称为Skip-Gram。本质来讲，Word2Vec是一个浅层神经网络，结构如下：


from torch import nn
class Word2VecModel(nn.Module):def __init__(self, vocab_size,

http://www.dtcms.com/a/200053.html

相关文章：

如何用 OceanBase 的 LOAD DATA 旁路导入进行大表迁移

python自学笔记3 控制结构

用Python实现数据库数据自动化导出PDF报告：从MySQL到个性化文档的全流程实践

在金融发展领域，嵌入式主板有什么优点？

goldenDB创建函数索引报错问题

5G金融互联：迈向未来金融服务的极速与智能新时代

每日c/c++题备战蓝桥杯（洛谷P4715 【深基16.例1】淘汰赛题解）

安装NASM

虚拟机的三个核心类加载器

【VBA/word】批量替换字体大小

深入解析分布式数据库TiDB：原理、优化与架构实践

宏汇编以及浮点程序设计实验

练习小项目5：基础计算器

算法竞赛 Java 高精度大数小数模版

2025年即时通讯APP如何抵御DDoS攻击？全链路防御方案与实战解析

5.19本日总结

Axure跨页面交互：利用IFrame和JS实现父子页面菜单联动

如何快速更换电脑浏览器ip：教程与注意事项

煤化工数字化关键一步：Modbus TCP转Profinet网关实现全流程通信兼容

基于 Vue 和 Node.js 实现图片上传功能：从前端到后端的完整实践

Ubuntu服务器部署多语言项目（Node.js/Python）方式实践

学习STC51单片机07（芯片为STC89C52RC）

arm64适配系列文章-第八章-第二节-arm64环境上seata的部署-手动构建1.4.2版本镜像

使用 NGINX 的 `ngx_http_secure_link_module` 模块保护资源链接

APP小程序抓包和下游代理

HTTP 协议基础

JVM 垃圾回收器

魔族密码--dp+map+substr

uniapp vue 开发微信小程序分包梳理经验总结

2024CCPC吉林省赛长春邀请赛 Java 做题记录