当前位置: 首页 > news >正文

【DataWhale】快乐学习大模型 | 202507,Task02笔记

文章目录

    • 1. NLP任务
    • 2. 文本表示

1. NLP任务

自然语言处理(Natural Language Processing,NLP),主要包含以下几类任务:

1.中文分词,顾名思义把句子切分成一个个词汇

中文输入:今天天气真好,适合出去游玩.
中文切割输出:["今天", "天气", "真", "好", ",", "适合", "出去", "游玩", "。"]

2.子词切分,这个主要针对英语,英语的词根词缀

不使用子词切分:整个单词作为一个单位:“unhappiness”
使用子词切分(假设BPE算法):单词被分割为:“un”、“happi”、“ness”
  1. 词性标注,句子中的每个词是动词or名词or…

  2. 文本分类,这是一个比较大的类,涵盖情感分析、垃圾邮件检测、新闻分类、主题识别等

  3. 实体识别,识别句子中具有特定意义的实体,如人名、地点、组织、日期、时间等

输入:李雷和韩梅梅是北京市海淀区的居民,他们计划在2024年4月7日去上海旅行。输出:[("李雷", "人名"), ("韩梅梅", "人名"), ("北京市海淀区", "地名"), ("2024年4月7日", "日期"), ("上海", "地名")]
  1. 关系抽取,这一任务主要是对文本进行理解,如因果关系、归属关系等,一般在知识图谱中应用的较多

  2. 文本摘要,即对大段落的文本进行概况,包括两种方法:直接从原文中抽取拼接组成摘要;根据原文重新组织改写摘要,这一部分主要应用基于注意力机制的序列到序列模型

  3. 机器翻译

  4. 自动问答,包括检索式问答(Retrieval-based QA)、知识库问答(Knowledge-based QA)和社区问答(Community-based QA)

2. 文本表示

文本表示经过四种模型的发展

  1. 词向量
    第一种是我们很熟悉的,比如独热编码。但是这种方法会导致很严重的数据稀疏性和维数灾难问题,因为词汇可以说是无穷尽的,那么词汇表会变得巨大,从而导致计算效率的降低。
  2. 语言模型
    这里主要是基于马尔可夫假设的N-gram模型, 即一个词的出现概率仅依赖于它前面的N-1个词,但是当N很大的时候,还是会出现数据稀疏性的问题,并且这种方法无法捕捉到句子的语义信息。
  3. Word2Vec
    Word2Vec是目前比较流行的解决方案,核心思想是利用词在文本中的上下文信息来捕捉词之间的语义关系,从而使得语义相似或相关的词在向量空间中距离较近。Word2Vec生成的是低维(通常几百维)的密集向量,有助于减少计算复杂度和存储需求。
  4. ELMo
    ELMo是比Word2Vec更晚出现的技术,它能根据词语在句子中的具体语境来生成不同的词向量。ELMo 不是为每个词提供一个固定不变的向量,而是会根据词语所在的整个句子来生成它的向量。
    ELMo 内部有一个叫做“双向语言模型”(即双向LSTM)的神经网络。它会既从左到右(像我们平时读书一样)理解句子,又从右到左反过来理解句子。这样,它就能同时捕捉到词语前面和后面的信息,从而更全面地理解词语的含义。
    “分层”理解: ELMo 的神经网络有不止一层。不同的层会学习到词语的不同方面的信息。比如,底层可能更关注语法结构,高层则可能更关注语义含义。
    ELMo为BERT的出现奠定了基础。
http://www.dtcms.com/a/282063.html

相关文章:

  • Grok 系列大模型:xAI 的智能宇宙探秘
  • web前端用MVP模式搭建项目
  • DNS防护实战:用ipset自动拦截异常解析与群联AI云防护集成
  • 用PyTorch手写透视变换
  • 【unitrix】 6.4 类型化数特征(t_number.rs)
  • Rust 基础大纲
  • AI产品经理面试宝典第27天:AI+农业精准养殖与智能决策相关面试题解答指导
  • 疗愈之手的智慧觉醒:Deepoc具身智能如何重塑按摩机器人的触觉神经
  • mongoDB集群
  • Jmeter+ant+jenkins接口自动化测试框架
  • 汽车功能安全-相关项集成和测试(系统集成测试系统合格性测试)-12
  • LabVIEW液压机智能监控
  • 【游戏引擎之路】登神长阶(十九):3D物理引擎——岁不寒,无以知松柏;事不难,无以知君子
  • WSL2更新后Ubuntu 24.04打不开(终端卡住,没有输出)
  • 模型上下文协议(MCP)的工作流程、安全威胁与未来发展方向
  • 海康线扫相机通过采集卡的取图设置
  • 作业06-文本工单调优
  • UE5 相机后处理材质与动态参数修改
  • 图机器学习(8)——经典监督图嵌入算法
  • (笔记+作业)第五期书生大模型实战营---L1G3000 LMDeploy 高效部署量化实践
  • spring容器的bean是单例还是多例的?线程安全吗?
  • 智慧公厕系统打造洁净、安全的公共空间
  • PyTorch 参数初始化详解:从理论到实践
  • 使用EF Core修改数据:Update方法与SaveChanges的深度解析
  • 【一文解决】块级元素,行内元素,行内块元素
  • 多目标优化|HKELM混合核极限学习机+NSGAII算法工艺参数优化、工程设计优化,四目标(最大化输出y1、最小化输出y2,y3,y4),Matlab完整源码
  • 自启动策略调研
  • 【前端】Vue3 前端项目实现动态显示当前系统时间
  • C++11迭代器改进:深入理解std::begin、std::end、std::next与std::prev
  • 从理论到实践:操作系统进程状态的核心逻辑与 Linux 实现