当前位置: 首页 > news >正文

[人工智能-大模型-138]:如何把文本语言转化成词向量,然后作为模型的输入?给出中间每个步骤的输入和输出的实例值。

下面我将 以一个具体的中文/英文混合示例,一步一步展示如何将文本转化为词向量并作为模型输入,并在每一步给出:

  • ✅ 步骤说明
  • ✅ 输入(Input)
  • ✅ 输出(Output)及实例值
  • ✅ 代码片段(Python + PyTorch)

🎯 目标任务:情感分类(正面 / 负面)

我们有以下三句话用于训练:

1. I love this movie!
2. This film is terrible.
3. Amazing acting and great story.

我们将通过 7个清晰步骤 把这些文本变成可以喂给神经网络的词向量。


🔢 全流程详解(含每步输入输出示例)


✅ 步骤 1:原始文本清洗与标准化

🔹 功能

去除标点、转小写、去噪

✅ 步骤 2:分词(Tokenization)

🔹 功能

把每个句子拆成单词列表

✅ 每个句子是一个词列表。


✅ 步骤 3:构建词汇表(Vocabulary)

🔹 功能

为每个唯一词分配一个整数 ID

✅ 总共 14 个词(含特殊标记),每个词对应唯一索引。


✅ 步骤 4:将句子转为索引序列(Index Sequence)

🔹 功能

用数字替换词语,并统一长度(padding)

✅ 形状:(3 句, 6 词) → 可转为张量


✅ 步骤 5:加载或初始化词向量矩阵(Embedding Matrix)

🔹 方法一:使用预训练 GloVe 向量(部分模拟)

假设我们从 glove.6B.50d.txt 中提取了部分词向量(50维):

🔹 输出(实例值)

✅ 每个词 ID 对应一个 50 维实数向量。


✅ 步骤 6:创建 Embedding 层并生成词向量张量

🔹 输入
  • X_indices: 索引序列 (3, 6)
  • embedding_matrix(14, 50)

✅ 步骤 7:送入模型(以简单 LSTM 为例)

🔹 输入
  • embedded_vectors[3, 6, 50]
🔹 模型定义

🧩 总结表格:各步骤输入输出一览

步骤名称输入输出(示例)形状
1清洗文本原始字符串列表['i love this movie', ...]3×str
2分词清洗后文本[['i','love',...], [...]]3×list
3构建词表所有 token{'i':7, 'love':9, ...}V=14
4编码为索引token 列表[[7,9,13,10,0,0], ...](3,6)
5构建嵌入矩阵词表 + 预训练向量embedding_matrix[14,50](14,50)
6生成词向量索引张量embedded_vectors[3,6,50](3,6,50)
7输入模型词向量序列logits[3,2](3,2)

🚀 小贴士

  • 使用 torch.utils.data.Dataset 和 DataLoader 可实现批量处理。
  • 实际项目推荐使用 Hugging Face Transformers(BERT等),自动完成上述流程。
  • 中文可用 jieba 分词 + sgns.wiki.word 预训练向量。

http://www.dtcms.com/a/581966.html

相关文章:

  • [Linux]学习笔记系列 -- [kernel]cpu
  • 河南建设工程信息网站怎么自己做游戏软件的app
  • 公司做网站是做什么账务处理传奇网页版在线玩
  • 西门子PLC扩展模块连接兼容性详解
  • 手机使用过的痕迹能查到吗?完整查询指南与步骤
  • Python 类继承详解:深度学习神经网络架构的构建艺术
  • 网站域名申请怎么做wordpress七牛云图床插件
  • 界面控件DevExpress WPF v25.1新版亮点:数据管理功能全新升级
  • 张家港专业的网站制作公司建设部职称网站
  • C# AutoResetEvent和ManualResetEvent
  • AI驱动半导体良率提升:基于机器学习的晶圆缺陷分类系统搭建
  • 系统架构师·案例分析相关知识点
  • 建站公司前景网站运营有前途吗
  • Leetcode 48
  • 因需写了个内网运维专用的IP地址管理工具,有点不同
  • 沈阳seo整站优化网页设计大师
  • 瓯北网站制作公司怎么用思维导图做网站结构图
  • 【代码随想录算法训练营——Day61】图论——97.小明逛公园、127.骑士的攻击
  • [Dify 实战] 使用 System Prompt 实现企业级策略管控
  • JVM架构与执行流程详解
  • 02 Prompt组件及使用技巧
  • 做网站能用微软企业公示信息年报
  • 本地赣州网站建设网站建设数据库选择
  • 多维竞争时代:手游ASO优化核心策略与安卓商店差异化
  • Linux命令-e2label命令(设置第二扩展文件系统的卷标)
  • 企业AI开发什么工具好?从“可用”到“好用”的全生命周期管理指南
  • (Linux)ELF格式与库的链接原理
  • 如何做网站的营销网站技术防护建设
  • C++新特性 chr类型编码
  • 指纹浏览器模拟功能的实践体验分享