当前位置: 首页 > news >正文

【ICCV 2025】Bridging the Skeleton-Text Modality Gap:扩散模型驱动零样本骨架动作识别

在这里插入图片描述

Bridging the Skeleton-Text Modality Gap: Diffusion-Powered Modality Alignment for Zero-shot Skeleton-based Action Recognition

DOI:https://doi.org/10.48550/arXiv.2411.10745
零样本骨架动作识别:训练阶段仅用 “已见类” 数据(骨架 + 文本),推理时,输入 “未见类骨架” 和 “所有未见类动作的文本提示”,实现对骨架数据的动作分类,实验结果以识别准确率呈现。
摘要:在零样本骨架动作识别(ZSAR)中,将骨架特征与动作标签的文本特征进行对齐,对于准确预测未见过的动作至关重要。ZSAR在弥合这两种特征之间的模态差距方面面临根本性挑战,这严重限制了其对未见动作的泛化能力。先前的方法侧重于骨架和文本潜在空间之间的直接对齐,但这些空间之间的模态差距阻碍了鲁棒的泛化学习。受多模态对齐(如文本到图像、文本到视频)中扩散模型成功的启发,我们首先提出了一种用于ZSAR的基于扩散的骨架-文本对齐框架。我们的方法,即用于骨架-文本匹配的三元组扩散(Triplet Diffusion for Skeleton-Text Matching, TDSM),侧重于扩散模型的交叉对齐能力,而非其生成能力。具体而言,TDSM通过将文本特征纳入反向扩散过程,将骨架特征与文本提示对齐,在文本指导下对骨架特征进行去噪,形成一个统一的骨架-文本潜在空间以进行鲁棒匹配。为了增强判别能力,我们引入了一种三元组扩散(TD)损失,鼓励我们的TDSM在将骨架-文本匹配项推开以区分不同动作类别的同时对其进行校正。我们的TDSM显著优于最近的所有先进方法,差距很大,达到了2.36个百分点至13.05个百分点,通过有效的骨架-文本匹配,在零样本设置中展示了卓越的准确性和可扩展性。
在这里插入图片描述
以前的方法依赖于骨架和文本潜在空间之间的直接对齐,从而受到限制泛化的通道间隙的影响,但TDSM通过利用扩散模型跨通道对齐能力克服了这一挑战,为有效的跨通道匹配建立了更统一和健壮的骨架-文本表示。
在这里插入图片描述
使用ShiftGCN对骨架数据进行时空特征提取,Clip模型对文本数据进行特征提取,预训练权重stabilityai/stable-diffusion-2-1-base下载地址:https://huggingface.co/stabilityai/stable-diffusion-2-1-base。给干净的骨架特征添加随机高斯噪声,模拟 “数据从干净到噪声” 的过程,为后续 “反向去噪” 提供学习目标 —— 让模型学会 “在文本引导下,从噪声中恢复与文本匹配的干净骨架特征”。反向扩散分为正样本分支负样本分支,双分支共享权重。正样本分支:匹配文本引导去噪,学习 “正确文本引导下的去噪规则”,使去噪后的骨架特征与文本语义紧密对齐。负样本分支:不匹配文本引导去噪,为 “三元组损失” 提供对比项,让模型学会 “区分正确 / 错误的骨架 - 文本对”。
在这里插入图片描述
推理阶段流程:输入未见类骨架数据与所有候选未见类标签,未见类骨架数据经骨架编码器编码并加噪得到带噪声的骨架特征,同时生成测试时间步;各候选标签经 “标签 - 提示” 转换为文本提示后,由文本编码器编码为全局和局部文本特征;随后,带噪声的骨架特征、测试时间步与各候选的文本特征输入扩散 Transformer,分别预测对应噪声;最终计算测试噪声与各候选预测噪声的范数,选择距离最小的候选标签作为未见类动作的预测结果。
在这里插入图片描述
实验结果,55/5为55个已见类,5个未见类,论文作者仅提供了55/5和48/12数据集,40/20和30/30需自行制作。

消融实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

结论

TDSM 是首个将扩散模型应用于零样本基于骨架的动作识别的框架。其选择性去噪过程促进了骨架与文本特征的稳健融合,使模型能够构建一个具有判别性的特征空间,该空间可泛化到未见的动作标签。此外,通过TD 损失增强了判别性融合 —— 该损失旨在有效对真实(GT)骨架 - 文本对进行去噪,同时防止已见数据集中错误对的融合。大量实验表明, TDSM 在各类基准数据集上以显著优势大幅超越了最新的 SOTA 模型。

http://www.dtcms.com/a/566374.html

相关文章:

  • 电子设计中的“握手信号”:深入浅出理解DCDC的PG引脚与软启动
  • dedecms 图片网站模板烘焙甜点培训学校
  • 怎么用手机建设网站dede做双语网站
  • yapi文档系统
  • MySQL 高可用(HA)参考架构:Oracle 官方指引(适配 Dev/Test/ 核心 Prod)与停机风险应对
  • 宜州做网站网站服务器失去响应
  • 手机怎么网站模板网站建设宗旨是什么
  • 系统性学习C++-第九讲-list类
  • 沈阳市网站制作浙江省2011年1月高等教育自学考试 网站建设与管理试题与答案
  • 基于 Qwen2.5-1.5B-Instruct 的商品信息抽取实践(附完整代码)
  • 免费行情软件网站大全西宁休闲娱乐场所
  • 基于Java开发的AMHS天车调度系统技术可行性评估以及相关示例
  • 做彩票网站能挣到钱吗?西安优秀的集团门户网站建设服务商
  • 小说网站怎么做app替换wordpress logo
  • 界面控件DevExpress WPF v25.1新版亮点:AI功能的全面升级
  • 建站快车品牌网站菜单代码
  • 药品加工厂做网站临县网站建设
  • 手机网站 微信网站 区别用国外网站 图片做自媒体
  • 网站建设万首先金手指12php做网站需要后台吗
  • 网站设计申请书学院网站建设情况
  • Redis(二)——数据类型二
  • 知名网站开发公司永州网站推广
  • 营销型网站标准网页源码wordpress去掉页眉
  • 少儿编程全路线学习规划:从 AI 机器人到 C++,分龄分阶段的科学进阶指南
  • 【C++】红黑树详解(2w字详解)
  • 百度站长工具是什么意思展厅设计公司展厅效果图
  • 爱站网工具包昌大建设和天元
  • 基于 PyTorch 的 UNet 与 NestedUNet 图像分割
  • 人工智能(2)知识表示与知识图谱
  • 团购网站模板 免费衡阳市网站建设