MMAction2重要的几个配置参数
embed_dims(全称 embedding dimensions)是指每个 patch(块)或特征的通道数/维度,是 Transformer 或 Swin Transformer 等模型中最核心的特征表示维度。
embed_dims 必须能被 num_heads 整除
具体解释
- 在 Swin Transformer、ViT 等模型中,输入视频/图片会被切分成小块(patch),每个 patch 会被投影(线性变换)到一个高维空间,这个空间的维度就是 embed_dims。
- 后续所有的注意力、MLP 等操作,都是基于这个维度进行的。
举例
- 如果 embed_dims=96,每个 patch 会被编码成 96 维的特征向量。
- 如果 embed_dims=32,每个 patch 会被编码成 32 维的特征向量。
影响
- embed_dims 越大,模型表达能力越强,但参数量和计算量也越大。
- embed_dims 越小,模型更轻量,但表达能力会下降。