当前位置: 首页 > news >正文

【CS224N】《深度学习自然语言处理》完整版笔记

写在前面:本文适合有一定机器学习 & Python基础的朋友复习使用,若零基础学习,强烈推荐李沐老师《动手学深度学习Pytorch版》!
Agent的学习不应当是速成的、浮于表面的,so~学一下CS224N,深深地理解它!
博客:https://alive0103.github.io/,欢迎来逛逛~

1. 词向量

one-hot vectors(独热向量)-是一种局部表示:
mote = [0000000000100001]
hotel = [000000010000000]

这两个向量是正交的,不存在自然意义上的相似性概念!-> 要学会从向量本身对相似性进行编码。

Note: word vectors are also called (word) embeddings or (neural) word representations They are a distributed representation
注意:词向量也被称为(单词)嵌入或(神经)单词表示形式。它们是一种分布式表示形式。

本质上我们运用距离+方向去表示语义相似度

1.1 Word2vec

有意思的问题:词向量的意思是由上下文决定的,那么当在不同的语义下,原本两个相似的词会变得不相似,那这个词向量应该怎么算?
嵌入的是其所有词义的平均值,作为该词的属性存在

corpus 语料库(拉丁语:身体)
复数:corpora 不是 corpi

方法:遍历语料库中的词(作为中心词c),设置窗口大小为m,其余词为外围词o,使得c状态下出现o的概率最高,以此往复生成句子。
计算:最大化预测准确性 -> 最小化目标函数 -> 关注平均负对数似然。
在这里插入图片描述

如何计算P(wt+j∣wt;θ)P(w_{t+j}\mid w_t;\theta)P(wt+jwt;θ)
P(o∣c)=exp⁡(uoTvc)∑w∈Vexp⁡(uwTvc)P(o|c)=\frac{\exp(u_o^Tv_c)}{\sum_{w\in V}\exp(u_w^Tv_c)}P(oc)=wVexp(uwTvc)exp(uoTvc)

点积:点积高的两个词比较“相似”(接连出现的概率较高)
指数化:因为我们希望得到的是一个概率,点积为负数的话可以被指数成正数
分母:归一化

1.2 softmax函数

将一堆实数转换成一个概率分布。
softmax(xi)=exp⁡(xi)∑j=1nexp⁡(xj)=pi\mathrm{softmax}(x_i)=\frac{\exp(x_i)}{\sum_{j=1}^n\exp(x_j)}=p_isoftmax(xi)=j=1nexp(xj)exp(xi)=pi
放大了最大值的概率(max),但仍然为较小项分配了一些概率(soft)。

1.3 梯度下降

为每个词分配了两个vector(一个作为中心词,一个作为外围词),求最大值的精髓在于使得【观测值-预测值=0】,即:
u0−∑x=1vp(x∣c)ux=0u_{0}-\sum_{x=1}^{v}p(x|c)u_{x}=0u0x=1vp(xc)ux=0

待续,每日一集,持续更新。。。

【(中英字幕完结)斯坦福CS224N《深度学习自然语言处理》全集课程!附课件代码 | 2025最新】https://www.bilibili.com/video/BV1vQMBz6EvP?p=2&vd_source=4bd852f834f2d9a6a8ce0609a36001d4


今天是小站运行的第1024天!很高兴与你同行~

http://www.dtcms.com/a/577144.html

相关文章:

  • 广东企业网站建设推荐网站做收录
  • XC7Z020-1CLG484I Xilinx AMD FPGA Zynq-7000 SoC
  • 论文分享 | BARD-GS:基于高斯泼溅的模糊感知动态场景重建
  • FPGA—ZYNQ学习spi(六)
  • 多智能体医疗会诊系统
  • ETCD 压力测试脚本
  • kali的下载和安装【ISO安装】
  • 从标签到数据流:BarTender让“可追溯”更简单
  • 零基础学AI大模型之Embedding与LLM大模型对比全解析
  • 7.游戏逆向-pxxx-TUObjectArray分析
  • web214-web220
  • 通州北苑网站建设程序开发的基本步骤是什么?
  • 专题:2025中国制造业出海与出海品牌社媒影响力洞察报告|附300+份报告PDF、数据、绘图模板汇总下载
  • 【 C/C++ 算法】入门动态规划 ----- 简单多状态 dp 问题》打家劫舍 和 股票买卖问题
  • (114页PPT)华为FusionCloud私有云最佳实践RegionTypeII(附下载方式)
  • 赤壁专业建站公司学做卤味视频网站
  • 3d光学轮廓仪如何局部测量标准台阶?
  • 【数据集+完整源码】水稻病害数据集,yolov8水稻病害检测数据集 6715 张,目标检测水稻识别算法实战训推教程
  • 3D Gaussian Splatting:渲染流程
  • 云原生LVS+Keepalived高可用方案(二)
  • IBM VO 面试经验分享|一场更像“聊天”的正式考核
  • 用单位的服务器做网站关键词优化网站
  • C语言基础开发入门系列(八)C语言指针的理解与实战
  • 如何绑定网站域名解析电商网站模板html
  • 【机器视觉通用检测框架】基于VS2019 C#+VisionPro9.0开发的视觉框架软件,全套源码,开箱即用
  • 智慧交通管理新范式 基于深度学习的城市交通车型识别AI监控系统 车型识别 停车场车型分类系统 高速路车型识别算法
  • pnpm 安装依赖后 仍然启动报的问题
  • 【河北政务服务网-注册_登录安全分析报告】
  • 深入理解 package.json:前端项目的 “身份证“
  • 【辽宁政务服务网-注册_登录安全分析报告】