当前位置: 首页 > news >正文

从 Word2Vec 到 BERT:AI 不止是词向量,更是语言理解

一、前言

在上篇文章中,我们介绍了Word2Vec以及它的作用,总的来说:

  • Word2Vec是我们理解NLP的第一站

  • Word2Vec将词变成了“向量”—— 终于可以用机器理解词语的相似度

  • 我们获得了例如“国王 - 男人 + 女人 ≈ 女王” 的类比能力

  • 我们可以将Word2Vec这种算法能力,应用到各种创新场景,例如基于Graph的推荐系统,后续如果小伙伴有需要,可以一起深入交流。

但同时也指出了它的不足:

  • 一个词=一个固定向量(静态词向量)

  • 上下文无感知:“苹果”无论是手机还是水果,向量相同

  • 是词的映射,不是对语言的理解

那如果让我们来设计下一代的算法,什么最重要?

——我们需要“能读懂句子”的模型。

接下来我们一步步实现,直至引出bert。

 二、Word2Vec是怎么工作的?

在上文,我们介绍到Word2Vec使用周围词预测中间词来获取词向量能力,这个被称为CBOW,同理也可以用中间词预测周围词,这个称为Skip-Gram。本质来讲,Word2Vec是一个浅层神经网络,结构如下:


from torch import nn
class Word2VecModel(nn.Module):def __init__(self, vocab_size,

相关文章:

  • 如何用 OceanBase 的 LOAD DATA 旁路导入进行大表迁移
  • python自学笔记3 控制结构
  • 用Python实现数据库数据自动化导出PDF报告:从MySQL到个性化文档的全流程实践
  • 在金融发展领域,嵌入式主板有什么优点?
  • goldenDB创建函数索引报错问题
  • 5G金融互联:迈向未来金融服务的极速与智能新时代
  • 每日c/c++题 备战蓝桥杯(洛谷P4715 【深基16.例1】淘汰赛 题解)
  • 安装NASM
  • 虚拟机的三个核心类加载器
  • 【VBA/word】批量替换字体大小
  • 深入解析分布式数据库TiDB:原理、优化与架构实践
  • 宏汇编以及浮点程序设计实验
  • 练习小项目5:基础计算器
  • 算法竞赛 Java 高精度 大数 小数 模版
  • 2025年即时通讯APP如何抵御DDoS攻击?全链路防御方案与实战解析
  • 5.19本日总结
  • Axure跨页面交互:利用IFrame和JS实现父子页面菜单联动
  • 如何快速更换电脑浏览器ip:教程与注意事项
  • 煤化工数字化关键一步:Modbus TCP转Profinet网关实现全流程通信兼容
  • 基于 Vue 和 Node.js 实现图片上传功能:从前端到后端的完整实践
  • 人民日报任平:从“地瓜经济”理论到民营经济促进法,读懂中国经济的成长壮大之道
  • 商务部就美国商务部调整芯片出口管制有关表述答记者问
  • 集齐中国泳坛“老中青”!200自潘展乐力压汪顺、孙杨夺冠
  • 释新闻|拜登确诊恶性前列腺癌,预后情况如何?
  • “复旦源”一源六馆焕新启幕,设立文化发展基金首期1亿元
  • 专利申请全球领先!去年我国卫星导航与位置服务产值超5700亿元