当前位置: 首页 > news >正文

兰州市网站怎样进入网站的后台

兰州市网站,怎样进入网站的后台,用vuejs做的网站,对网站政务建设的建议牛津大学xDeepMind 自然语言处理 Natural Language Processing 词向量与词汇语义学 Word Vectors and Lexical Semantics 词语表示的基本问题与分布语义思想 传统词语表示(如独热向量)存在稀疏、正交、语义弱的问题,无法表达语义相似性。分布…

牛津大学xDeepMind 自然语言处理 Natural Language Processing

词向量与词汇语义学 Word Vectors and Lexical Semantics
  1. 词语表示的基本问题与分布语义思想
    1. 传统词语表示(如独热向量)存在稀疏、正交、语义弱的问题,无法表达语义相似性。
    2. 分布语义核心思想:“观其伴而知其词”,即基于词语的上下文 / 使用场景生成稠密向量表示,主要方法分为基于计数、基于预测和基于任务三类。
  2. 基于计数的方法
    1. 核心流程:定义上下文词汇基C和窗口大小w,统计在语料库中,每个目标词的每个实例左右w个词范围内,上下文词汇基的出现次数,基于这些计数,形成目标词的向量表示。
    2. 相似性度量:常用内积或余弦相似度(余弦对范数不敏感,更优)。
    3. 优化:需区分信息量高的计数和高频噪声,常用 TF-IDF、PMI 等归一化方法,但存在上下文基选择等问题。
  3. 神经嵌入模型
    1. 通用思路:收集词语实例及其上下文,定义可微的分数函数和损失,通过优化得到嵌入矩阵 E。
    2. 典型模型:
      1. C&W 模型(conv+MLP):通过卷积和 MLP 处理句子嵌入,用干扰句和铰链损失训练,能捕捉相邻表示信息,但模型深、训练成本高。
      2. CBoW 模型(Transform+softmax):将上下文词嵌入相加后投影到词汇表,用 softmax 和负对数似然训练,全线性、速度快,有负采样等变体。
      3. Skip-gram 模型(Transform+softmax):用目标词预测上下文词,嵌入目标词后投影,效率高,需在效率和上下文结构化之间权衡。
  4. 神经模型与基于计数模型的比较
    1. 核心思想一致,Word2Vec 等价于基于计数模型的 PMI 矩阵分解。
    2. 经适当超参数优化后,两者性能相当。
  5. 神经方法的优势
    1. 易于学习,支持高度并行(小批量、GPU、分布式训练)。
    2. 可预测上下文的离散(如词性)和连续(如图像)特征,避免计数方法的稀疏性问题。
  6. 词表示的评估
    1. 内在评估:通过 WordSim-353、SimLex-999 等数据集测相似度,词语类比任务(如 “女王 = 国王 - 男人 + 女人”),以及嵌入可视化(T-SNE投影、最近邻)等。
    2. 外在评估:判断嵌入是否能提升其他任务(如分类、情感分析)的性能。
  7. 基于任务的嵌入学习
    1. 核心:将嵌入矩阵 E 作为神经网络参数,与网络其他参数联合训练(可从头学或预训练后微调),使嵌入适应任务需求。
    2. 典型应用:
      1. BoW 分类器:将词向量叠加作为特征,用于情感分析、文档分类等,但无法处理歧义、多义性,语义较浅。
      2. 双语特征学习:通过最大化对齐句子对的相似度(用噪声对比边际损失避免退化),使嵌入反映高层意义,提升跨语言表示能力。
    3. 局限性:任务嵌入仅捕捉任务相关信息,可能缺乏通用语义,可通过多任务学习或预训练 + 任务投影缓解,但存在挑战。
  8. 总结
    1. 词向量是文本神经网络的核心输入,可单独训练、在任务中训练或结合两者。
    2. 迁移学习中,重用预训练词向量适用于数据少或词汇覆盖低的场景;数据充足时,任务内训练嵌入更优,但可重用性降低。
RNN和语言建模
  1. 语言模型基础

    1. 定义:语言模型为词序列分配概率,满足所有可能序列的概率和为 1,可用于比较词序合理性(如翻译、语音识别)。
    2. 核心分解:基于链式法则将联合概率分解为条件概率的乘积,即p(w1,...wN)=∏n=1Np(wn∣w1,...,wn−1)p(w_1,...w_N)=∏^N_{n=1}p(w_n|w_1,...,w_{n-1})p(w1,...wN)=n=1Np(wnw1,...,wn1),核心是学习 “给定历史预测下一词” 的条件分布。
    3. 评估指标:交叉熵(衡量编码文本所需比特数)和困惑度(衡量模型对每个词的惊讶程度,perplexity=2cross−entropyperplexity=2^{cross-entropy}perplexity=2crossentropy)。
    4. 数据注意事项:需区分训练集(过去)和测试集(未来),避免数据泄露;常用数据集包括 Penn Treebank、Billion Word Corpus,WikiText 更优。
  2. 基于计数的 n-gram 语言模型

    1. 马尔可夫假设:用前k-1个词近似历史(k 阶马尔可夫模型),如 2-gram 模型假设p(w1,...,wn)≈p(w1)p(w2∣w1)p(w3∣w2)×...×p(wn∣wn−1)p(w_1,...,w_n)≈p(w_1)p(w_2|w_1)p(w_3|w_2)×...×p(w_n|w_{n-1})p(w1,...,wn)p(w1)p(w2w1)p(w3w2)×...×p(wnwn1)
    2. 概率估计:最大似然估计通过计数计算,如 3-gram 概率p(w3∣w1,w2)=count(w1,w2,w3)/count(w1,w2)p(w_3|w_1,w_2)=count(w_1,w_2,w_3)/count(w_1,w_2)p(w3w1,w2)=count(w1,w2,w3)/count(w1,w2)
    3. 平滑与回退:解决稀疏性问题,如线性插值p(wn∣wn−2,wn−1)=λ3p(wn∣wn−2,wn−1)+λ2p(wn∣wn−1)+λ1p(wn)p(w_n|w_{n-2},w_{n-1})=λ_3p(w_n|w_{n-2},w_{n-1})+λ_2p(w_n|w_{n-1})+λ_1p(w_n)p(wnwn2,wn1)=λ3p(wnwn2,wn1)+λ2p(wnwn1)+λ1p(wn)λ3+λ2+λ1=1λ_3+λ_2+λ_1 = 1λ3+λ2+λ1=1Kneser-Ney 是常用高级方法。
    4. 优缺点:可扩展性强、训练快,但无法捕捉长依赖和语义相似性(如 “cat” 与 “dog”)。
  3. 神经 n-gram 语言模型

    1. 模型结构:用前馈网络处理固定 n-gram 历史(如 trigram 的wn−2,wn−1w_{n-2},w_{n-1}wn2,wn1),通过嵌入层将独热向量转为稠密向量,经隐藏层后用 softmax 输出下一词概率。
    2. 训练:以交叉熵为损失,通过反向传播优化参数,各时间步梯度独立可并行计算。
    3. 优缺点:对未见过的 n-gram 泛化更好,但对已见过的 n-gram 性能略差;模型参数规模小于传统 n-gram,但仍受限于固定 n-gram 长度,无法捕捉长距离依赖,且参数随 n-gram 大小增加而增长。
  4. 循环神经网络语言模型(RNN LM)

    1. 模型结构:抛弃固定 n-gram 历史,通过隐藏状态hn=g(V[xn;hn−1]+c)h_n=g(V[x_n;h_{n-1}]+c)hn=g(V[xn;hn1]+c)压缩整个历史,用y^n=Whn+b\hat{y}_n=Wh_n+by^n=Whn+b和 softmax 输出下一词概率,实现对任意长度历史的建模。
    2. 训练:通过时间反向传播(BPTT)计算梯度,需考虑各时间步梯度的依赖关系;截断时间反向传播(TBPTT)通过固定时间步截断依赖,提高计算效率。
    3. 复杂度与批处理:BPTT 计算量与序列长度线性相关,TBPTT 为常数;批处理在 GPU 上可加速矩阵运算,但序列长度不一致时效率较低。
    4. 优缺点:能表示无限依赖,参数规模不随依赖长度增长(但随隐藏层容量增加);但难以学习长距离依赖,且隐藏层扩大会导致计算和内存成本二次增长。
  5. 偏差与方差权衡

    1. n-gram 模型:偏差高(固定历史近似)但方差低(依赖高频计数)。
    2. RNN 模型:大幅降低偏差(捕捉全历史),但可能增加方差,需通过优化平衡。
  6. 长距离依赖与梯度问题

    1. 核心挑战:简单 RNN 理论上可表示长距离依赖,但实际中因循环权重VhV_hVh的重复乘法导致梯度消失(特征值 <1)或爆炸(特征值> 1),无法有效学习长距离关联。
    2. 非线性影响:激活函数(如 tanh、sigmoid)的导数进一步缩小梯度,加剧问题。
  7. 门控循环网络(LSTM 与 GRU)

    1. LSTM:通过输入门(ini_nin)、遗忘门(fnf_nfn)、输出门(ono_non)和细胞状态cnc_ncn控制信息流动,细胞状态通过加法更新(减轻梯度衰减),隐藏状态hnh_nhn由输出门调制,有效捕捉长依赖。
    2. GRU:简化 LSTM 结构,合并输入门和遗忘门为更新门(znz_nzn),新增重置门(rnr_nrn)控制历史信息的使用,参数更少,计算效率更高。
    3. 优缺点:门控机制显著缓解梯度问题,是神经机器翻译、语音识别等任务的关键;但参数和计算量多于普通 RNN,每个参数的记忆容量较低。
  8. 深度循环神经网络 Deep RNN LMs

    1. 扩展方式:通过增加网络深度(空间维度)或时间维度深度提升表示能力,避免单纯扩大隐藏层导致的二次成本增长。
    2. 典型结构:多层 RNN(空间深度)和循环高速公路网络(时间深度,类似 GRU 的深度单元),在语言建模中表现优异。
  9. 大词汇量处理

    1. 核心瓶颈:softmax 计算p^n=softmax(Whn+b)\hat{p}_n=softmax(Wh_n+b)p^n=softmax(Whn+b)的成本随词汇量VVV线性增长,成为效率瓶颈。
    2. 解决方案:
      1. 短列表与混合模型:高频词用神经 LM,低频词用 n-gram,但损失泛化能力。
      2. 采样与近似梯度:噪声对比估计(NCE)将问题转为二分类,重要性采样(IS)用多分类,降低训练成本但不影响测试。
      3. 词汇分解:一级分类(如布朗聚类)加速V\sqrt{V}V,树结构分解(如二叉树)加速logVlogVlogV,平衡计算效率与性能。
    3. 子词建模:以字符或语素为单位,消除未登录词,捕捉形态特征,但序列更长且依赖距离更远。
  10. 正则化

    Dropout:仅应用于非循环连接,避免循环掩码导致的信息丢失;

    贝叶斯 Dropout 通过绑定循环掩码并在评估时采样,增强泛化。

  11. 总结与核心观点

    1. 长距离依赖:门控网络(LSTM/GRU)是解决梯度问题、捕捉长依赖的主流方案。
    2. 模型扩展:深度 RNN 在空间 / 时间维度扩展,以线性成本提升容量;大词汇量通过分解或采样优化 softmax 效率。
    3. 权衡关系:语言建模需平衡偏差与方差(n-gram vs RNN)、性能与效率(模型容量 vs 计算成本)、泛化与针对性(通用表示 vs 任务适配)。
http://www.dtcms.com/a/417756.html

相关文章:

  • 十大财务软件手机优化软件排行
  • 企业网站源码打包百度免费推广登录入口
  • 网站有哪些元素组成wordpress迁移主机后主页不显示
  • 网站翻新后seo怎么做如何让网站给百度收录
  • 淘宝上做网站福建中江建设公司网站
  • 怎么做网站搜索引擎揭阳有哪家网站制作公司
  • 河南省住房城乡建设厅官方网站wordpress新主题去版权
  • 公司怎么搭建自己网站怎样建设网赌网站
  • 织梦网站联系我们的地图怎么做佛山网站建设业务员
  • 通过模版做网站白宫 wordpress
  • 网站建设运城玉林做网站优化推广
  • 什么网站是做汽车装饰配件的天津建设工程竣工备案公示网站
  • 秦皇岛学网站建设北京建网站公司飞沐
  • 手机建设网站策划书乡村振兴网站建设
  • 济南科技市场做网站奎屯市网站
  • dedecms做电影网站信息网站有哪些
  • 酒泉如何做百度的网站南京网站建设 雷仁
  • 怎么关键词优化网站西地那非片吃了多久会硬起来
  • 免费推广网站短视频南三环做网站的公司
  • 沙坪坝集团网站建设专业网页制作哪家好
  • 淘宝内部券网站建设家在龙岗
  • 手机网站营销页网站是数据
  • 宁波学校网站建设哪个网站做ppt好
  • 福州网站建设fjfzwl千万别在百度上搜别人的名字
  • 建设银行etc信用卡申请网站免费工作总结ppt模板下载
  • 360网站建设商家广西网站seo
  • 温州网站建设策划做618购物网站的总结
  • 郑州高端模板建站教育网站的开发与建设论文
  • 国外电商网站有哪些跨界营销案例
  • php 英文商城网站建设线上外贸平台有哪些