当前位置: 首页 > news >正文

六、深度学习——NLP

一、自然语言概述

  • 自然语言处理研究的主要是通过计算机算法来理解自然语言。对于自然语言来说,处理的数据主要就是人类的语言,该类型的数据不像我们前面接触的结构化数据或图像数据可以很方便的进行数值化

二、词嵌入层

  • 词嵌入层的作用就是将文本转换为向量,词嵌入层首先会根据输入的词的数量构建一个词向量矩阵,例如:我们有5个词,每个词希望转换成3维度的向量,那么构建的矩阵的形状即为5*3,输入的每个词都对应了一个该矩阵中的一个向量

在Pytorch中,使用nn.Embedding词嵌入层来实现输入词的向量化

nn.Embedding(num_embeddings = 10, embedding_dim = 4)

nn.Embedding对象构建时,最主要有两个参数:

  • num_embeddings表示词的数量
  • embedding_dim表示用多少维的向量来表示每个词

将词转换为词向量的步骤:

  1. 先将语料进行分词,构建词与索引的映射,我们可以把这个映射叫做词表,词表中的每个词都对应了一个唯一的索引
  2. 然后使用nn,Embedding构建词嵌入矩阵,词索引对应的向量即为该词对应的数值化后的向量表示
import jieba
import torch
import torch.nn as nn# 分词
text = "北京冬奥的进度条已经过半,不少外国运动员在完成自己的比赛后踏上归途"
words = jieba.lcut(text)
print(words)print("-"*50)
# 去重
un_words = list(set(words))
print(un_words)
print("-"*50)
num = len(un_words)
print(num)# 调用embedding
embeds = nn.Embedding(num_embeddings=num, embedding_dim=3)
print(embeds(torch.tensor(4))) # 获取  '已经'  的词向量print("-"*50)for i,word in enumerate(un_words):print(word)print(embeds(torch.tensor(i)))
http://www.dtcms.com/a/277221.html

相关文章:

  • 01_类的概念和定义
  • websocket连接时发生未知错误
  • sqli-labs靶场通关笔记:第9关 时间盲注
  • 快速生成 Android 的 Splash 的 9 Patch 图片
  • 【零基础入门unity游戏开发——unity3D篇】3D光源之——unity反射和反射探针技术
  • AI进化论12:大语言模型的爆发——GPT系列“出圈”,AI飞入寻常百姓家
  • Kafka——Kafka 线上集群部署方案怎么做?
  • c语言初阶 结构体
  • 【Python】venv:配置独立镜像源
  • 常用的docker命令备份
  • 007_用例与应用场景
  • python 列表(List) vs. 元组(Tuple):什么时候该用不可变的元组?它们在性能和用途上有什么区别?
  • 暑期自学嵌入式——Day01(C语言阶段)
  • 协程的基本使用
  • 【保姆级图文详解】MCP架构(客户端-服务端)、三种方式使用MCP服务、Spring AI MCP客户端和服务端开发、MCP部署方案、MCP安全性
  • 基于 CentOS 7 的 LVS+DR+Web+NFS 旅游攻略分享平台部署
  • CentOS系统下前后端项目部署攻略
  • 从 Manifest V2 升级到 Manifest V3:常见问题与解决方案
  • vue-component
  • [Linux入门 ] RAID存储技术概述
  • (S4)Efficiently Modeling Long Sequences with Structured State Spaces论文精读(逐段解析)
  • [Rust 基础课程]Hello World
  • 数据结构 单链表(2)--单链表的实现
  • 聊一聊Java生态接口测试常见的框架
  • 在 Spring Boot 中使用 MyBatis 的 XML 文件编写 SQL 语句详解
  • MySQL SQL语句精要:DDL、DML与DCL的深度探究
  • Design Compiler:什么是代价函数(Cost Function)
  • HarmonyOS组件/模板集成创新活动-元服务小云体重管理引入案例(步骤条UI组件)
  • python赤道上空的大气环流剖面图(纬向-高度剖面)
  • 多级@JsonTypeInfo和@JsonSubTypes注解使用详解及场景分析