当前位置：首页 > news >正文

Embedding 层（tf.keras.layers.Embedding）文档翻译

news 2025/9/9 6:35:59

Embedding 层（tf.keras.layers.Embedding）文档翻译

将正整数（索引）转换为固定大小的稠密向量。

例如：[[4], [20]] -> [[0.25, 0.1], [0.6, -0.2]]

该层仅可用于固定范围的正整数输入。tf.keras.layers.TextVectorization（文本向量化层）、tf.keras.layers.StringLookup（字符串查找层）和tf.keras.layers.IntegerLookup（整数查找层）这三个预处理层，可帮助为Embedding层准备输入数据。

该层接受tf.Tensor和tf.RaggedTensor类型的输入，无法接收tf.SparseTensor类型的输入。

>>> model = tf.keras.Sequential()
>>> model.add(tf.keras.layers.Embedding(1000, 64, input_length=10))
>>> # 该模型将接收尺寸为 (批次大小, 输入长度) 的整数矩阵作为输入，
>>> # 且输入中最大的整数（即词索引）不应超过 999（词汇表大小）。
>>> # 此时模型的输出形状为 (None, 10, 64)，其中 `None` 代表批次维度（批次大小可变）。
>>> input_array = np.random.randint(1000, size=(32, 10))  # 生成随机输入数组
>>> model.compile('rmsprop', 'mse')  # 配置模型：优化器为rmsprop，损失函数为均方误差
>>> output_array = model.predict(input_array)  # 模型预测
>>> print(output_array.shape)  # 打印输出数组形状
(32, 10, 64)

input_dim：整数类型。词汇表的大小，即 “最大整数索引 + 1”。
output_dim：整数类型。稠密嵌入向量的维度（即每个索引对应的输出向量长度）。
embeddings_initializer：embeddings矩阵的初始化器（详见 keras.initializers）。
embeddings_regularizer：作用于embeddings矩阵的正则化函数（详见 keras.regularizers）。
embeddings_constraint：作用于embeddings矩阵的约束函数（详见 keras.constraints）。
mask_zero：布尔类型，指示输入值 0 是否为需屏蔽的特殊 “填充” 值。在使用可能接收变长输入的循环层（recurrent layers）时，此参数非常有用。若设为True，则模型中所有后续层都需支持屏蔽（masking）功能，否则会抛出异常。此外，若mask_zero设为True，则索引 0 无法用于词汇表（此时input_dim应等于 “词汇表大小 + 1”）。
input_length：整数类型，输入序列的固定长度（仅当序列长度恒定时需指定）。若后续需连接Flatten层和Dense层（全连接层），则必须指定此参数 —— 否则无法计算稠密层输出的形状。

输入形状（Input shape）
2D 张量，形状为：(批次大小, 输入长度)（即 (batch_size, input_length)）。
输出形状（Output shape）
3D 张量，形状为：(批次大小, 输入长度, 输出维度)（即 (batch_size, input_length, output_dim)）。
变量放置说明（Note on variable placement）
默认情况下，若存在可用 GPU，embedding矩阵将被放置在 GPU 上。这种设置能实现最佳性能，但可能引发以下问题：

所使用的优化器可能不支持稀疏 GPU 内核（sparse GPU kernels），此时训练模型会抛出错误。
embedding矩阵可能过大，无法放入 GPU 内存，此时会出现 “内存不足（OOM）错误”。

若遇到上述情况，应将embedding矩阵放置在 CPU 内存中。可通过 “设备作用域（device scope）” 实现，代码如下：