《Multimodal Machine Learning: A Survey and Taxonomy》论文主要内容
《Multimodal Machine Learning: A Survey and Taxonomy》论文主要内容
一、论文概述
《Multimodal Machine Learning: A Survey and Taxonomy》(2017年arXiv预印本,2019年正式发表于IEEE TPAMI)是多模态机器学习领域的奠基性综述论文,由卡内基梅隆大学Tadas Baltrusaitis、Chaitanya Ahuja和Louis-Philippe Morency撰写。
论文核心贡献在于提出了多模态机器学习的五大核心挑战分类法,超越了传统简单的"早期/晚期融合"二分法,为该领域提供了系统性研究框架,被学界广泛引用和遵循。
二、多模态机器学习的基本概念
模态(Modality):指事物存在、被体验或表达的特定方式(如视觉、听觉、语言)。
多模态机器学习:构建能够处理和关联来自多种模态信息的模型,捕捉模态间对应关系,深入理解自然现象。
论文主要聚焦三种核心模态:
- 自然语言(NLP):书面或口头语言
- 视觉信号(CV):图像或视频表示
- 声音信号(SR):声音和副语言信息(如韵律) <
