当前位置：首页 > news >正文

Seq2Seq - 编码器（Encoder）和解码器（Decoder）

news 2025/10/17 16:40:11

本节实现一个简单的 Seq2Seq（Sequence to Sequence）模型 的编码器（Encoder）和解码器（Decoder）部分。

重点把握Seq2Seq 模型的整体工作流程

理解编码器（Encoder）和解码器（Decoder）代码

本小节引入了nn.GRU API的调用，nn.GRU具体参数将在下一小节进行补充讲解

1. 编码器（Encoder

类定义

class Encoder(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_size):
        super().__init__()
        self.emb = nn.Embedding(vocab_size, embedding_dim)
        self.rnn = nn.GRU(embedding_dim, hidden_size, batch_first=True)

vocab_size：输入词汇表的大小，即输入序列中可能出现的不同单词或标记的数量。
embedding_dim：嵌入层的维度，即每个单词或标记被映射到的向量空间的维度。
hidden_size：GRU（门控循环单元）的隐藏状态维度，决定了模型的内部状态大小。

主要组件

嵌入层（nn.Embedding）
- 嵌入层会将输入序列形状转换为 [batch_size, seq_len, embedding_dim] 的张量。
- 这种映射是通过学习嵌入矩阵实现的，每个单词索引对应嵌入矩阵中的一行。
GRU（nn.GRU）
- embedding_dim 是 GRU 的输入维度，hidden_size 是隐藏状态的维度。
- batch_first=True 表示输入和输出的张量的第一个维度是批量大小（batch_size），而不是序列长度（seq_len）。

前向传播（`forward`）

def forward(self, x):
    embs = self.emb(x) #batch * token * embedding_dim
    gru_out, hidden = self.rnn(embs) #batch * token * hidden_size

    return gru_out, hidden

输入 x 是一个形状为 [batch_size, seq_len] 的张量，表示一个批次的输入序列。
embs 是嵌入层的输出，形状为 [batch_size, seq_len, embedding_dim]。
gru_out 是 GRU 的输出，形状为 [batch_size, seq_len, hidden_size]，表示每个时间步的隐藏状态。
hidden 是 GRU 的最终隐藏状态，形状为 [1, batch_size, hidden_size]，用于传递给解码器。

2. 解码器（Decoder）

类定义

class Decoder(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_size):
        super().__init__()
        self.emb = nn.Embedding(vocab_size, embedding_dim)
        self.rnn = nn.GRU(embedding_dim, hidden_size, batch_first=True)

解码器的结构与编码器类似，但它的作用是将编码器生成的上下文向量（hidden）解码为目标序列。

主要组件

嵌入层（nn.Embedding）
- 与编码器类似，将目标序列的单词索引映射到嵌入向量。
GRU（nn.GRU）
- 与编码器中的 GRU 类似，但其输入是目标序列的嵌入向量，初始隐藏状态是编码器的最终隐藏状态。

前向传播（`forward`）

def forward(self, x, hx):
    embs = self.emb(x)
    gru_out, hidden = self.rnn(embs, hx=hx) #batch * token * hidden_size
    # batch * token * hidden_size
    # 1 * token * hidden_size

    return gru_out, hidden

输入 x 是目标序列的单词索引，形状为 [batch_size, seq_len]。
hx 是编码器的最终隐藏状态，形状为 [1, batch_size, hidden_size]，作为解码器的初始隐藏状态。
embs 是目标序列的嵌入向量，形状为 [batch_size, seq_len, embedding_dim]。
gru_out 是解码器 GRU 的输出，形状为 [batch_size, seq_len, hidden_size]。
hidden 是解码器 GRU 的最终隐藏状态，形状为 [1, batch_size, hidden_size]。

3. Seq2Seq 模型的整体工作流程⭐

编码阶段
- 输入序列通过编码器的嵌入层，将单词索引映射为嵌入向量。
- 嵌入向量通过 GRU，生成每个时间步的隐藏状态和最终的隐藏状态（上下文向量）。
- 最终隐藏状态（hidden）作为编码器的输出，传递给解码器。
解码阶段
- 解码器的初始隐藏状态是编码器的最终隐藏状态。
- 解码器逐个生成目标序列的单词，每次生成一个单词后，将该单词的嵌入向量作为下一次输入，同时更新隐藏状态。
- 通过这种方式，解码器逐步生成目标序列。

http://www.dtcms.com/a/122447.html

相关文章：

Linux系统安全及应用

Spring AI Alibaba MCP 市场正式上线！

spark安装过程问题

CSS 定位属性的生动比喻：以排队为例理解 relative 与 absolute

HP EVA SAN 的基础知识及常见数据丢失问题

【nnUNetv2进阶】二十九、nnUNetv2 魔改网络-小试牛刀-引入RCM（Rectangular Self-Calibration Module）

Mybatis操作数据库

8. git branch

spring mvc 异常处理中@RestControllerAdvice 和 @ControllerAdvice 对比详解

Linux服务器——Samba服务器

【C++编程基础-关键字】：constexpr和const

Vue3服务端渲染实战：Nuxt3深度解析与高性能SSR架构设计

vLLM实战：多机多卡大模型分布式推理部署全流程指南

深入探究Python的re模块及其在爬虫中的应用

界面控件DevExpress WPF v25.1新功能预览 - 数据网格、报表性能增强

[特殊字符] Hyperlane：Rust 高性能 HTTP 服务器库，开启 Web 服务新纪元！

ARM裸机全集学习笔记【链接来源：向阳而生，逆风翻盘】

智能家居设备

Ansible（5）——编写 Playbook

SpringMVC的请求-文件上传

如何利用 Java 爬虫获取京东商品详情信息

scala总结与spark安装

游戏引擎学习第213天

【scikit-learn基础】--『预处理』之正则化

JetBrains Terminal 又发布新架构，Android Studio 将再次迎来新终端

21 天 Python 计划：MySQL中DML与权限管理

Java基础 4.9

如何生成一个requestid

地图服务热点追踪：创新赋能，领航出行与生活

Windows 下 Rust 安装全攻略（无需 Visual Studio）