当前位置：首页 > news >正文

【ICCV 2025】Bridging the Skeleton-Text Modality Gap：扩散模型驱动零样本骨架动作识别

news 2025/11/4 14:02:34

在这里插入图片描述

Bridging the Skeleton-Text Modality Gap: Diffusion-Powered Modality Alignment for Zero-shot Skeleton-based Action Recognition

DOI：https://doi.org/10.48550/arXiv.2411.10745
零样本骨架动作识别：训练阶段仅用 “已见类” 数据（骨架 + 文本），推理时，输入 “未见类骨架” 和 “所有未见类动作的文本提示”，实现对骨架数据的动作分类，实验结果以识别准确率呈现。
摘要：在零样本骨架动作识别（ZSAR）中，将骨架特征与动作标签的文本特征进行对齐，对于准确预测未见过的动作至关重要。ZSAR在弥合这两种特征之间的模态差距方面面临根本性挑战，这严重限制了其对未见动作的泛化能力。先前的方法侧重于骨架和文本潜在空间之间的直接对齐，但这些空间之间的模态差距阻碍了鲁棒的泛化学习。受多模态对齐（如文本到图像、文本到视频）中扩散模型成功的启发，我们首先提出了一种用于ZSAR的基于扩散的骨架-文本对齐框架。我们的方法，即用于骨架-文本匹配的三元组扩散（Triplet Diffusion for Skeleton-Text Matching, TDSM），侧重于扩散模型的交叉对齐能力，而非其生成能力。具体而言，TDSM通过将文本特征纳入反向扩散过程，将骨架特征与文本提示对齐，在文本指导下对骨架特征进行去噪，形成一个统一的骨架-文本潜在空间以进行鲁棒匹配。为了增强判别能力，我们引入了一种三元组扩散（TD）损失，鼓励我们的TDSM在将骨架-文本匹配项推开以区分不同动作类别的同时对其进行校正。我们的TDSM显著优于最近的所有先进方法，差距很大，达到了2.36个百分点至13.05个百分点，通过有效的骨架-文本匹配，在零样本设置中展示了卓越的准确性和可扩展性。
在这里插入图片描述
以前的方法依赖于骨架和文本潜在空间之间的直接对齐，从而受到限制泛化的通道间隙的影响，但TDSM通过利用扩散模型的跨通道对齐能力克服了这一挑战，为有效的跨通道匹配建立了更统一和健壮的骨架-文本表示。
在这里插入图片描述
使用ShiftGCN对骨架数据进行时空特征提取，Clip模型对文本数据进行特征提取，预训练权重stabilityai/stable-diffusion-2-1-base下载地址：https://huggingface.co/stabilityai/stable-diffusion-2-1-base。给干净的骨架特征添加随机高斯噪声，模拟 “数据从干净到噪声” 的过程，为后续 “反向去噪” 提供学习目标 —— 让模型学会 “在文本引导下，从噪声中恢复与文本匹配的干净骨架特征”。反向扩散分为正样本分支和负样本分支，双分支共享权重。正样本分支：匹配文本引导去噪，学习 “正确文本引导下的去噪规则”，使去噪后的骨架特征与文本语义紧密对齐。负样本分支：不匹配文本引导去噪，为 “三元组损失” 提供对比项，让模型学会 “区分正确 / 错误的骨架 - 文本对”。
在这里插入图片描述
推理阶段流程：输入未见类骨架数据与所有候选未见类标签，未见类骨架数据经骨架编码器编码并加噪得到带噪声的骨架特征，同时生成测试时间步；各候选标签经 “标签 - 提示” 转换为文本提示后，由文本编码器编码为全局和局部文本特征；随后，带噪声的骨架特征、测试时间步与各候选的文本特征输入扩散 Transformer，分别预测对应噪声；最终计算测试噪声与各候选预测噪声的范数，选择距离最小的候选标签作为未见类动作的预测结果。
在这里插入图片描述
实验结果，55/5为55个已见类，5个未见类，论文作者仅提供了55/5和48/12数据集，40/20和30/30需自行制作。

消融实验

在这里插入图片描述

结论

TDSM 是首个将扩散模型应用于零样本基于骨架的动作识别的框架。其选择性去噪过程促进了骨架与文本特征的稳健融合，使模型能够构建一个具有判别性的特征空间，该空间可泛化到未见的动作标签。此外，通过TD 损失增强了判别性融合 —— 该损失旨在有效对真实（GT）骨架 - 文本对进行去噪，同时防止已见数据集中错误对的融合。大量实验表明， TDSM 在各类基准数据集上以显著优势大幅超越了最新的 SOTA 模型。

查看全文

http://www.dtcms.com/a/566374.html