当前位置：首页 > news >正文

[人工智能-大模型-138]：如何把文本语言转化成词向量，然后作为模型的输入？给出中间每个步骤的输入和输出的实例值。

news 2025/11/8 9:55:35

下面我将 以一个具体的中文/英文混合示例，一步一步展示如何将文本转化为词向量并作为模型输入，并在每一步给出：

✅ 步骤说明
✅ 输入（Input）
✅ 输出（Output）及实例值
✅ 代码片段（Python + PyTorch）

🎯 目标任务：情感分类（正面 / 负面）

我们有以下三句话用于训练：

1. I love this movie!
2. This film is terrible.
3. Amazing acting and great story.

我们将通过 7个清晰步骤 把这些文本变成可以喂给神经网络的词向量。

🔢 全流程详解（含每步输入输出示例）

✅ 步骤 1：原始文本清洗与标准化

🔹 功能

去除标点、转小写、去噪

✅ 步骤 2：分词（Tokenization）

🔹 功能

把每个句子拆成单词列表

✅ 每个句子是一个词列表。

✅ 步骤 3：构建词汇表（Vocabulary）

🔹 功能

为每个唯一词分配一个整数 ID

✅ 总共 14 个词（含特殊标记），每个词对应唯一索引。

✅ 步骤 4：将句子转为索引序列（Index Sequence）

🔹 功能

用数字替换词语，并统一长度（padding）

✅ 形状：(3 句, 6 词) → 可转为张量

✅ 步骤 5：加载或初始化词向量矩阵（Embedding Matrix）

🔹 方法一：使用预训练 GloVe 向量（部分模拟）

假设我们从 glove.6B.50d.txt 中提取了部分词向量（50维）：

🔹 输出（实例值）

✅ 每个词 ID 对应一个 50 维实数向量。

✅ 步骤 6：创建 Embedding 层并生成词向量张量

🔹 输入

X_indices: 索引序列 (3, 6)
embedding_matrix: (14, 50)

✅ 步骤 7：送入模型（以简单 LSTM 为例）

🔹 输入

embedded_vectors: [3, 6, 50]

🔹 模型定义

🧩 总结表格：各步骤输入输出一览

步骤	名称	输入	输出（示例）	形状
1	清洗文本	原始字符串列表	`['i love this movie', ...]`	3×str
2	分词	清洗后文本	`[['i','love',...], [...]]`	3×list
3	构建词表	所有 token	`{'i':7, 'love':9, ...}`	V=14
4	编码为索引	token 列表	`[[7,9,13,10,0,0], ...]`	(3,6)
5	构建嵌入矩阵	词表 + 预训练向量	`embedding_matrix[14,50]`	(14,50)
6	生成词向量	索引张量	`embedded_vectors[3,6,50]`	(3,6,50)
7	输入模型	词向量序列	`logits[3,2]`	(3,2)

🚀 小贴士

使用 torch.utils.data.Dataset 和 DataLoader 可实现批量处理。
实际项目推荐使用 Hugging Face Transformers（BERT等），自动完成上述流程。
中文可用 jieba 分词 + sgns.wiki.word 预训练向量。

http://www.dtcms.com/a/581966.html

相关文章：

[Linux]学习笔记系列 -- [kernel]cpu

河南建设工程信息网站怎么自己做游戏软件的app

公司做网站是做什么账务处理传奇网页版在线玩

西门子PLC扩展模块连接兼容性详解

手机使用过的痕迹能查到吗？完整查询指南与步骤

Python 类继承详解：深度学习神经网络架构的构建艺术

网站域名申请怎么做wordpress七牛云图床插件

界面控件DevExpress WPF v25.1新版亮点：数据管理功能全新升级

张家港专业的网站制作公司建设部职称网站

C# AutoResetEvent和ManualResetEvent

AI驱动半导体良率提升：基于机器学习的晶圆缺陷分类系统搭建

系统架构师·案例分析相关知识点

建站公司前景网站运营有前途吗

Leetcode 48

因需写了个内网运维专用的IP地址管理工具，有点不同

沈阳seo整站优化网页设计大师

瓯北网站制作公司怎么用思维导图做网站结构图

【代码随想录算法训练营——Day61】图论——97.小明逛公园、127.骑士的攻击

[Dify 实战] 使用 System Prompt 实现企业级策略管控

JVM架构与执行流程详解

02 Prompt组件及使用技巧

做网站能用微软企业公示信息年报

本地赣州网站建设网站建设数据库选择

多维竞争时代：手游ASO优化核心策略与安卓商店差异化

Linux命令-e2label命令（设置第二扩展文件系统的卷标）

企业AI开发什么工具好？从“可用”到“好用”的全生命周期管理指南

（Linux）ELF格式与库的链接原理

如何做网站的营销网站技术防护建设

C++新特性 chr类型编码

指纹浏览器模拟功能的实践体验分享