当前位置: 首页 > news >正文

多模态知识图谱

摘要

  • 背景

    • 知识图谱(KG)作为一种大规模语义网络,已广泛应用于文本理解、推荐系统、问答等任务。

    • 现有的知识图谱大多基于符号化文本,缺乏与真实世界感知信息的连接。

  • 问题

    • 单纯的符号表示(文字)不足以让机器真正理解实体或概念的含义。

    • 需要将符号与真实世界的多模态信息(如图像、声音、视频)进行“符号落地”(grounding),才能更好地表达和理解。

  • 动机

    • 多模态知识有助于改善许多任务,例如:

      • 关系抽取:图像能帮助识别文本难以描述的关系(如 partOf、colorOf)。

      • 文本生成:借助图像和MMKG,机器能生成更精确的实体级描述。

    • 因此,随着应用需求增加,MMKG的研究和应用快速发展。

  • 贡献

    • 本文是首个系统性综述MMKG(以文本+图像为主)的研究。

    • 主要从两个方面进行总结:

      1. 构建:从图像到符号、以及从符号到图像的双向构建方式。

      2. 应用:分为 In-MMKG 应用(改善MMKG自身的质量与融合)和 Out-of-MMKG 应用(为多模态任务提供支持)。

    • 论文目标是:

      • 提供全面综述;

      • 对方法优劣进行深入分析;

      • 揭示未来研究的机会和方向。

引言

定义

  • 回顾知识图谱(KG)的定义

    • 传统KG是一个有向图,由实体、关系、属性及其对应的三元组组成。

    • 三元组分为关系三元组 (s, p, o) 和属性三元组 (s, p, o)。

  • 引入多模态知识图谱(MMKG)

    • MMKG是在传统KG的基础上,把部分符号知识与非文本模态(如图像、声音、视频)关联起来。

    • 举例:一个关系三元组 (s, p, o) 可以配上一张描述关系的图像。

  • 两种主要的MMKG表示方式

    • A-MMKG:把多模态数据当作实体的属性值(例如 “Eiffel Tower — hasImage — Eiffel Tower.jpg”)。

    • N-MMKG:把多模态数据本身当作新的实体,引入更多跨模态和模态内的关系(如 contain、nearBy、sameAs、similar),并且通常会用图像描述符(HOG、CLD等)来表示图像特征

  • 主流MMKG构建方法与代表性系统

    • 基于视觉知识抽取:如 NEIL、GAIA、RESIN、MMEKG 等,主要通过图像识别和分类来获取视觉实体和关系。

    • 基于符号对齐(symbol grounding):如 IMGpedia、ImageGraph、MMKG、Richpedia、VisualSem 等,通过将图像与已有KG中的实体对齐(例如来自维基百科、搜索引擎),并进一步考虑图像的多样性和实体的可视化性。

技术知识

  • 多模态的定义

    • 在计算机科学与AI中,如果一个问题涉及多种模态的数据(如图像 + 文本),就是多模态问题。

    • 常见任务:图像描述 (image caption)、视觉问答 (VQA)、跨模态检索 (cross-modal retrieval)。

  • 多模态学习(Multi-Modal Learning)的五大方向

    • 表示(Representation):学习不同模态的特征表示,可以投射到统一空间或保持独立空间但满足某些约束。

    • 翻译(Translation):从一种模态翻译到另一种模态(例:图像→文本)。

    • 对齐(Alignment):找出模态之间的对应关系,可直接用于视觉定位、或作为预训练任务。

    • 融合(Fusion):将多模态信息结合起来完成预测任务,常用注意力机制建模交互。

    • 协同学习(Co-Learning):利用资源丰富的模态来弥补另一模态的低资源问题。

  • 视觉-语言预训练模型(VL-PTMs)

    • 近几年大型公司和研究机构(如 OpenAI、微软、华为)都在推动 VL-PTMs 的发展。

    • 代表:CLIP(基于 4 亿图文对训练),显著提升了图像分类和跨模态检索性能。

    • VL-PTMs 的关键在于:

      • 使用大规模图文数据 + 自监督预训练任务(如 MLM、图文对齐、遮掩预测)。

      • 加入更细粒度的跨模态任务(如对象对齐、关系对齐)来增强跨模态理解。

讨论

  • 背景

    • 尽管已有很多多模态学习和 VL-PTMs 的研究,但引入 MMKG 仍是一个新趋势。

    • MMKG 能在多个方面增强多模态任务。

  • 五大优势

    1. 丰富表示:提供充足的背景知识,尤其能增强长尾实体/概念的表示。

    2. 理解未见对象:通过符号知识帮助识别统计模型难以处理的新对象。

    3. 支持可解释推理:例如 OK-VQA,需要外部知识才能回答的问题,MMKG 能提供推理支持。

    4. 补充NLP任务特征:图像可辅助解决歧义(如判断“Rocky”是狗还是人名)。

    5. 补充VL-PTMs:VL-PTMs 学到的是隐式跨模态知识,而 MMKG 能提供显式、细粒度、长尾和背景知识。

  • 总结

    • 仅靠多模态数据或 VL-PTMs 的信息仍有限。

    • 如果能利用大规模 MMKG,多模态任务的表现将得到进一步提升。

如何构建多模态知识图谱

  • MMKG 构建的本质:就是把传统知识图谱中的符号知识(实体、概念、关系等)与对应的图像关联起来。

  • 两种主要方法

    1. 从图像到符号:给图像打上来自知识图谱的标签;

    2. 从符号到图像:把知识图谱中的符号落地到对应的图像。

从图像到符号

  • 核心思路

    • 借助计算机视觉(CV)中的 图像标注技术,把图像和知识图谱中的结构化符号(概念、实体等)关联起来。

    • 示例:NEIL 把图像链接到 WordNet,ImageSnippets 把图像链接到 DBpedia。

  • 实现方式

    • 图像标注模型通过学习图像内容与标签集(对象、场景、实体、属性、关系、事件等)的映射来完成任务。

    • 训练依赖人工标注数据集(众包标注边界框、图像区域及标签),如图示例(Figure 2)。

  • 代表性系统

    • 文中提到一些已有的图像视觉知识抽取系统(列在 Table 2(a)),可以作为 MMKG 构建的基础。

  • 细分任务

    • 将图像链接到符号的过程可拆分为:

      • 视觉实体/概念抽取 (Sec. 3.1.1)

      • 视觉关系抽取 (Sec. 3.1.2)

      • 视觉事件抽取 (Sec. 3.1.3)

图像的实体抽取

  1. 任务定义

    • 在图像中检测并定位目标视觉对象,并将其标注为知识图谱中的实体或概念符号。

  2. 挑战

    • 需要大规模、细粒度且高质量的标注数据集,但现有图像数据大多是粗粒度的,难以满足 MMKG 构建需求。

  3. 现有进展

    • 两类方法

      1. 目标识别(Object Recognition)

        • 通过检测器 + 分类器标注图像中的对象。

        • 依赖人工标注数据集(如 MSCOCO、Flickr30k)。

        • 问题:只能识别有限预定义类别,精度有限(如 GAIA 在 MSCOCO 上仅 43%)。

      2. 视觉对齐(Visual Grounding)

        • 不依赖标注框,而是利用图文对(image-caption pairs)进行弱监督学习。

        • 通过注意力或显著性方法定位图像区域,输出视觉实体/概念。

        • 在 GAIA 上精度更高(约 69.2%),但存在语义尺度不一致的问题(如 troops 被映射成个体士兵)。

    • 机会(Opportunities)

      1. VL-PTMs 驱动的抽取:如 CLIP、ViLT 等大规模视觉-语言预训练模型,可以直接通过注意力映射识别实体,精度高。

      2. 分类体系扩展(Taxonomy Extension)

        • 图像常有多级合理标签(如 Boy/Man/Person),需要结合层级词汇表(taxonomy)来选择最合适的语义层级,避免歧义。

            总结:这一段主要讲了 视觉实体/概念抽取的定义、数据挑战、两类主流方法(目标识别 vs 视觉对齐)的优缺点,并指出未来可通过 VL-PTMs 和分类体系优化 来提升效果。

    图像的关系抽取

    1. 任务定义

    • 目标:识别图像中视觉实体/概念之间的语义关系,并将其映射到知识图谱中的关系。

    • 区别:CV 社区的视觉关系检测通常是表层的(如 (Person, standing on, Beach)),而 MMKG 构建需要更通用、更抽象的 KG 级关系(如 (Jack, spouse, Rose))。

    2. 挑战

    • 当前方法提取的多为场景关系,难以对齐到 KG 中更抽象的语义关系。

    3. 现有进展

    • 两类主要方法

      1. 基于规则的方法

        • 专注于空间关系、动作关系等,通过预定义规则和启发式特征判断关系。

        • 优点:精度高(如 NEIL 系统平均检测精度 79%)。

        • 缺点:需要大量人工规则,难以大规模应用。

      2. 基于统计的方法

        • 将视觉、空间、统计特征编码为向量,利用分类模型预测关系。

        • 借助语言先验(如 subject+predicate≈object,或用语言模型约束)来提高准确率,但视觉信息贡献较小。

        • 结合图结构(GCN、图更新机制)提升推理效果。

        • 现状:谓词检测的 recall@50 可达 85.6%,但三元组检测 recall@50 < 23%,性能有限。

    • 长尾与细粒度关系抽取

      • 问题:训练数据分布不均,模型偏向预测频繁关系。

      • 解决方向:度量学习、迁移学习、少样本学习、对比学习,但仍局限于特征层融合。

      • 细粒度关系(如 sit on / walk on / lay on)常被预测为粗粒度 on

      • 新方法:反事实因果推理(减少上下文偏差)、层级分类(由具体到泛化关系逐级预测)。

    4. 机会(未来方向)

    1. 视觉知识关系判别:区分“图像场景信息”与“被广泛接受的知识”,避免把仅属于某一图像的关系当作普遍知识。

    2. 基于推理的关系检测:不仅依赖特征融合,而是利用推理链进行显式预测。例如根据身体部位动作推理 (Person, kick, Football)

      • 难点:现有方法多依赖人工构建数据集,需要自动化总结推理链。

    图像事件抽取

    1. 任务定义

    • 事件包括:触发词(trigger) + 论元(arguments)及其角色(roles)

    • 子任务:

      1. 预测事件类型;

      2. 定位并抽取事件论元(对象/概念)及其角色。

    • 情境识别(situation recognition) 不同:后者只识别事件类别,不抽取论元。

    2. 挑战

    1. 事件类型需要预定义 schema,但实际存在大量未定义的视觉事件 → 如何自动挖掘事件模式?

    2. 如何从图像或视频中抽取事件的论元?

    3. 现有进展

    • (1) 视觉事件 Schema 挖掘

      • 借助大规模图像-文本对,利用触发词检索事件相关图像 → 候选图像区域通过视觉定位标注。

      • 使用频繁项集挖掘(如 Apriori)找到高频视觉模式,自动生成事件 schema。

      • 可以修正人工 schema 的缺漏(如 Attack 事件中,实际数据里 SmokePolice 更常见)。

    • (2) 视觉事件论元抽取

      • 根据图像全局特征分类事件类型,再通过目标识别或视觉定位抽取论元。

      • MMEKG 在实例级评估中,视觉事件与跨模态三元组的精度约为 64%。

      • 需要保证视觉论元与文本论元在关系上对齐(如对齐情境图 situation graph 与 AMR 图)。

      • 视频比图片更适合事件抽取:事件往往跨越多个帧。已有方法简化为从关键帧抽取论元。

    4. 机会(未来方向)

    1. 长视频中的序列事件抽取:如何从包含多个事件的长视频中分割并提取事件。

    2. 复杂事件的子事件分解:如 Making Coffee → 一系列子事件(清洗机器、放咖啡豆、开启机器),需要时间轴化的顺序抽取。

    符号到图像

    • 核心概念

      • 符号落地(Symbol Grounding):将知识图谱中的符号(实体、概念或关系三元组)与合适的多模态数据(如图像)对应起来。

    • 现有成果

      • 一些典型通过符号落地构建的 MMKG 已列在 Table 2(b)。

    • 子任务划分

      • 符号落地过程可细分为三个任务:

        1. 实体落地(Entity Grounding)

        2. 概念落地(Concept Grounding)

        3. 关系落地(Relation Grounding)

    实体落地

    1. 任务定义

    • 将知识图谱中的实体与其对应的多模态数据(主要是图像,有时也包括视频和音频)关联起来。

    2. 挑战

    1. 如何低成本地找到足够多的高质量图像?

    2. 如何从大量候选图像中选择最匹配实体的图像?

    3. 现有方法

    • 两大图像来源

      1. 在线百科(如 Wikipedia/DBpedia)

        • 优点:容易获取初步大规模 MMKG。

        • 缺点:

          • 很多实体没有图像(仅 6.7% 实体有 ≥3 张图像,79.35% 没有图像)。

          • 图像质量和相关性参差不齐(非视觉化实体可能引入误图)。

          • 覆盖率有限。

      2. 搜索引擎

        • 优点:覆盖率高,可通过关键词查询获取大量图像。

        • 缺点:容易引入噪声,需要消歧(如 “Bank” 会同时返回河岸和银行)。

        • 解决策略:扩展查询词(父类词或实体类型)、图像多样性检索模型去重、选择最相关的图像。

    • 综合方法

      • 通常结合百科和搜索引擎两种方法,既保证质量又提高覆盖率。

      • 实体与视觉特征解耦,可区分视觉相似的实体,便于构建细粒度或领域定向的 MMKG(如电影、产品、军事领域)。

    4. 机会(未来方向)

    1. 典型图像选择:每个实体有多张图像,如何确定最能代表实体的子集?

    2. 多上下文多重落地(Multiple Grounding):实体在不同上下文下需要关联不同图像(如 Donald Trump 在不同事件或时期的照片)。

    3. 文本-图像检索:如果有大规模图文语料,可将实体落地转化为文本-图像检索问题(如电商领域的应用)。

    概念落地

    1. 任务定义

    • 将知识图谱中的概念(Concept)与代表性的、多样化的、可区分的图像关联起来。

    • 与实体落地不同,概念落地面对的是更抽象、更广泛的类别(如“Princess”“Happiness”)。

    2. 挑战

    1. 并非所有概念都可视化(如“irreligionist”难以对应具体图像)。

    2. 如何从多样化的图像中选出最具代表性和区分性的图像?

      • 例如,“Princess”可能有迪士尼公主、历史公主、现代公主等不同图像。

    3. 现有方法

    研究主要分为三个任务:

    1. 可视化概念判断(Visualization Concept Judgment)

      • 自动判断哪些概念可视觉化。

      • 方法包括:基于语法/语义的判断、搜索引擎图片数量或相似性、手动标注等。

      • 挑战:抽象概念仍难准确判断。

    2. 代表性图像选择(Representative Image Selection)

      • 从候选图像中挑选最具代表性和可区分性的图像。

      • 方法包括:

        • 聚类方法(K-means、谱聚类),选择类内方差小的图像。

        • 结合语义信息(图像标签、标题)进行重排和区分。

    3. 图像多样化(Image Diversification)

      • 确保所选图像在多样性和相关性上平衡。

      • 方法包括:

        • 基于多样性分数和相关性分数的排序(Max-Min 方法)。

        • 图算法(动态规划、马尔可夫随机游走)寻找最优图像序列。

      • 目标:覆盖尽可能多的不同视觉子类或主题。

    4. 未来研究机会

    1. 抽象概念落地(Abstract Concept Grounding)

      • 情感或抽象概念(如 Happiness、Anger、Love、Beauty)可以通过固定视觉符号或词语聚类表示。

    2. 动名词概念落地(Gerunds Concept Grounding)

      • 如 dancing、wrestling,可通过身体姿态、表情、关节位置等特征关联图像。

    3. 通过实体间接落地不可视化概念(Non-visualizable Concept via Entity Grounding)

      • 对于不可直接视觉化的概念,可通过其典型实体的图像间接表示(如用 Einstein 的照片表示 Physicist)。

      • 面临的问题:

        • 典型实体的主观性差异。

        • 如何选择多实体图像总结概念。

        • 是否抽象多实体图像的共性视觉特征。

    关系落地

    1. 任务定义

    • 将知识图谱中的关系(Relation)与能够体现该关系的图像关联起来。

    • 输入:一个或多个三元组(subject, relation, object);

    • 输出:与关系语义最相关的图像(例如,将 (Justin Bieber, couple, Selena Gomez) 对应到“亲吻”的图像,而不是“健身”场景)。

    2. 挑战

    1. 图像检索时,顶端结果通常偏向与三元组的主体或客体相关,而非反映关系本身。

    2. 如何找到真正能体现语义关系的图像,而不仅仅是包含主体或客体?

    3. 现有方法

    1. 基于共现的方法

      • 假设如果在 Wikipedia 描述中两实体存在某关系,那么它们的视觉对象也存在该关系。

      • 局限:现实中两个对象未必同时出现在一张图像中,或者图像中呈现的关系可能不是预期的。

    2. 图结构匹配方法

      • 将关系三元组作为查询,将图像表示为多 (subject, predicate, object) 组合的场景图(scene graph)。

      • 使用多分支 CNN 或 GCN 提取图像的结构特征。

      • 通过对象节点与关系节点的匹配计算文本三元组与图像的相似度,实现细粒度匹配。

    3. 细粒度文本-图像检索

      • 相比全局跨模态嵌入匹配,更注重对象与关系的逐项匹配(item-by-item matching)。

      • 可以将文本和图像都表示为图,然后做图匹配。

    4. 未来机会

    1. 目前主要关注可视化的空间关系和动作关系(如 leftOf、on、ride、eat)。

    2. 大多数语义关系(如 isA、Occupation、Team、Spouse)在图像中不易直接观察,缺乏训练数据,难以检索对应图像。

    3. 有潜力利用一些结合文本实体与视觉关系的数据集来辅助训练。

    两种方式比较

    1. 适用场景 (Applicable Scenarios)

    • 图像标注方式更适合:当多模态数据是核心知识时,例如:

      • 甲骨文识别系统中的甲骨照片

      • 教学服务中的课堂音频

      • 深度视频理解任务中的电影视频

    • 符号落地方式更适合:当多模态数据冗余或噪声多时,可以依赖已有的精炼符号来匹配图像,例如:

      • 电影本体在推荐系统

      • 电商对话系统的产品本体

      • 学术信息检索中的论文本体

    “第一公民”取决于知识需求:想分析论文与地图关系,论文是第一公民;想分析地图与地图中区域关系,地图是第一公民。

    2. 效率 (Efficiency)

    • 符号落地:通常是基于检索的方法,效率高,适合从零开始构建 MMKG。

    • 图像标注:通常依赖分类和检测方法,提取实体、概念和关系耗时较长。

    • 例:NEIL 先用 NELL 本体检索图片,再提取图像中的对象和关系。

    3. 质量 (Quality)

    • 图像标注问题:粗粒度标注、语义层次不合理。

    • 符号落地问题:缺失或错误匹配图像,尤其是长尾实体可能没有合适图像。

    • 总体:符号落地在语义精度上更优,但图像覆盖仍可能不完全。

    应用

    • 概览:表格列出了主流应用任务、对应的基准数据集以及 MMKG 带来的好处。

    • 分类:将应用分为三类:

      • KG 内部应用 (in-KG applications)

      • KG 外部应用 (out-of-KG applications)

      • 特定领域应用 (domain applications)

    多模态知识图谱内部应用

    • 定义:In-MMKG 应用是指在 MMKG 内部进行的任务,此时实体、概念和关系的嵌入已经被学习好。

    • 嵌入基础:介绍了 MMKG 嵌入(embedding)的来源和方法:

      • 基于语义匹配的模型:如 RESCAL,通过向量空间计算三元组的存在可能性。

      • 基于平移距离的模型:如 TransE,假设

    • 多模态处理问题

      • 视觉编码器:用 CNN 或 Transformer 提取图像的隐藏特征作为视觉嵌入,传统显式特征(如 GHD、HOG、CLD)难以利用。

      • 知识融合:可通过向量拼接、平均池化、SVD/PCA 等方法组合不同模态,或将不同模态投影到统一空间进一步学习统一嵌入。

    • 后续任务:引入四类典型的 In-MMKG 应用:

      • 链接预测(link prediction)

      • 三元组分类(triple classification)

      • 实体分类(entity classification)

      • 实体对齐(entity alignment)

    链接预测

    • 任务定义

      • 预测三元组 (h, r, t) 中缺失的实体或关系,例如 (?, r, t)、(h, r, ?) 或 (h, ?, t)。

      • 与传统 KG 相似,通常通过对候选实体或关系进行打分和排序来完成。

    • MMKG 的特点

      • 在 MMKG 中,实体和关系的嵌入融合了图像等多模态信息,从而提供额外的视觉知识。

      • 例如,一个人的图像可以提供年龄、职业或头衔等信息,丰富实体表示。

    • 方法和应用

      • IMAGEgraph:处理“视觉-关系查询”,可预测未见过图像之间的关系,实现零样本(zero-shot)关系预测。

      • MMKG 数据集:通过多模态(数值+图像)信息进行 sameAs 链接预测,验证多模态信息对任务的互补性。

    三元组分类

    • 任务定义

      • 判断一个三元组 (h, r, t) 是正确的还是错误的,即区分正三元组和负三元组。

      • 可视为知识图谱补全(KG completion)的一种形式。

    • 方法

      • 利用在 MMKG 上学习到的嵌入模型,计算每个三元组的能量分数 E(h,r,t)。

      • 为每种关系 r 设定阈值 δr,如果能量分数高于 δr,则预测该三元组为负样本。

      • 训练时通过替换三元组中的 h、r 或 t 来生成负样本,用于模型学习。

    实体分类

    • 实体分类的定义

      • 将知识图谱中的实体(Entity)划分到不同的语义类别(concepts)。

      • 可以视为一种特殊的链接预测任务:关系为 IsA,尾实体是一个概念。

    • 传统方法与局限

      • 传统知识图谱(KG)中有很多实体分类模型,这些模型可以用于 MMKG。

      • 但是,多模态知识图谱(MMKG)中实体和概念包含丰富的多模态信息(如文本、图像、音频等),如果没有好的 MMKG 嵌入模型,这些信息难以充分利用。

    • 多模态嵌入模型

      • 一些工作尝试从多种模态中学习实体和概念的嵌入,然后映射到统一的表示空间(joint representation space)。

      • 但纯粹的节点嵌入方法可能不足以解决 MMKG 的任务,需要同时考虑图结构信息。

    • 评测基准

      • [140] 提出了一套高质量、多模态的基准数据集,用于精确评估 MMKG 上的节点分类(node classification)任务。

    实体对齐

    • 实体对齐的定义与目的

      • 实体对齐旨在将不同 MMKG 中表示同一现实世界实体的节点对应起来。

      • 当两个 MMKG 存在重叠时,实体对齐可以将它们整合成一个统一的图谱。

    • 核心方法

      • 学习不同知识图谱中实体的表示(embedding),然后计算跨图谱实体对的相似度。

      • 传统 KG 的实体嵌入特征

        • 图内上下文信息:如 OWL 属性语义、邻居节点共现、属性值兼容性

        • 外部信息:如外部词典、维基百科链接

    • 多模态知识图谱(MMKG)中的扩展

      • 引入了多模态特征(图像、文本等),需要专门的 MMKG 实体对齐嵌入模型。

      • 方法包括:

        • 分别编码不同模态的特征向量,然后通过知识融合技术合并为实体最终表示。

        • [156] 使用 ranking loss 训练嵌入。

        • [157] 设计了一个多模态互补损失函数:

          其中 分别是三种模态的嵌入,eee 是实体的最终嵌入, 是权重超参数。

    • 另一种方法:Product of Experts (PoE)

      • 用于处理跨图谱的查询(如 (h?, sameAs, t)(h, sameAs, t?))。

      • 将视觉特征整合进端到端学习框架,比简单拼接或集成方法效果更好。

    外部应用

    多模态实体识别和连接

    • Out-of-KG 应用的定义

      • 指那些不局限于知识图谱内部,而是可以借助 MMKG 提升效果的下游任务。

      • 本段重点关注 如何利用 MMKG 以及它相比其他方法的优势。

    • 多模态实体识别(MNER)

      • 传统 NER 只使用文本,但实体提及存在歧义和多样性问题。

      • MNER 利用文本和图像,图像提供补充信息来辅助识别。

      • MMKG 的优势:

        • 提供实体的视觉特征,增强文本或图像表示。

        • 利用实体的两跳邻居或图像信息进行消歧。

        • 提供更多标签或相关词,提高跨模态交互效果。

    • 多模态实体链接(MEL)

      • 将文本中歧义的实体提及映射到知识图谱中的实体。

      • MMKG 的使用方式:

        1. 提供目标实体候选集合。

        2. 学习多模态分布式表示,计算提及与实体之间的相关性。

      • 面临的挑战:

        • 图像中的无关信息可能引入噪声,影响表示学习。

        • 解决方法:

          • 两阶段图文相关性机制过滤无关图像。

          • 多头注意力机制捕捉关键特征,通过查询候选实体的多跳邻居增强表示。

    视觉问答

    • VQA 的挑战

      • 需要对问题进行准确语义解析,并理解图像中不同对象和场景之间的关系。

      • 很多 VQA 数据集(如 GQA、OK-VQA、KVQA)的问题需要结合 视觉信息和外部知识 进行推理。

      • 例如,“图中的毛绒玩具对应哪位美国总统?”需要先识别“Teddy Bear”,再通过知识图谱推理出“Theodore Roosevelt”。

    • MMKG 在 VQA 中的三大作用

      1. 提供外部知识:关于图像中实体及其关系的信息,帮助理解视觉内容。

      2. 辅助答案推理:将图像实体和问题中的文本实体与 MMKG 中的事实结合,重新加权答案,通过统一的多模态表示(图像、问题、结构化知识)增强推理能力。

      3. 图结构表示与显式推理:将 MMKG 中的多模态实体和关系三元组表示为异构图的节点和边,便于使用启发式规则、SPARQL 查询或图神经网络(GNN)进行推理。

    • MMKG 构建与应用示例

      • MMKG 可通过结合现有知识图谱和标注图像数据集构建。

      • 例如,[51] 中的显式知识来源包括:

        • hasPart 三元组(hasPart KB)

        • hasPart/isA 三元组(DBpedia)

        • 常识三元组(ConceptNet)

        • 视觉对象的位置信息(Visual Genome)

      • 将 MMKG 的显式知识与视觉语言预训练模型(VL-PTMs)的隐式知识结合,能显著优于仅使用 VL-PTMs 的方法,而且两者知识大多不重叠。

    图文匹配

    • 图文匹配任务概述

      • 任务目标:计算输入图像与文本对之间的语义相似度,用于图文检索或文本图像检索。

      • 一般方法:将图像和文本映射到一个 联合语义空间,学习统一的多模态表示,再进行相似度计算。

      • 传统方法:利用多标签检测模块提取图像语义概念,并与全局上下文融合。

      • 问题:预训练的检测模型难以发现长尾概念,导致表示受限,性能下降。

    • MMKG 的作用

      • 扩展视觉与语义概念:利用多模态实体间关系补充检测模型难以捕捉的长尾概念。

      • 构建场景图(Scene Graphs):通过 MMKG 中频繁共现的概念对(如 house-window, tree-leaf)增强图像概念表示,提供语义上下文信号。

      • 对齐跨模态表示:利用图结构信息表示图像和文本的高层语义,有助于本地和全局特征对齐,提高推理和解释能力。

      • 统一多模态表示:MMKG 提供的结构化知识帮助图像和文本学习更一致的多模态表示,增强匹配精度。

    多模态生成任务

    • 图像标注(Image Tagging)

      • 问题:传统方法受限于标签分布偏差、噪声和不准确标签。

      • MMKG 的优势:

        • 提供结构化概念层级(同义词、上位词、下位词等)。

        • 提供概念对应的代表性和区分性图像。

        • 通过 MMKG 可生成更精确的候选标签并减少歧义,优于 ConceptNet、WebChild、ImageNet 等方法。

    • 图像描述(Image Captioning)

      • 问题:

        1. 过度依赖目标检测器,导致对象/关系和文本描述语义不一致。

        2. 无法描述未见过的新对象或概念。

      • MMKG 的优势:

        • 利用语义图进行关系推理,使生成的描述更准确合理。

        • 利用符号化知识理解未见对象,通过多标签分类器将视觉对象与知识库实体关联,扩展图像表示。

      • 命名实体感知图像描述(Entity-aware Image Captioning)

        • MMKG 可实现跨模态对齐,将文本中的命名实体与图像中的视觉对象匹配,提高描述的精确性和信息量。

        • 利用结构化知识显著提升 BLEU、METEOR、ROUGE、CIDEr 和实体 F1 分数。

    • 视觉故事讲述(Visual Storytelling)

      • 问题:传统方法把任务当作顺序图像描述,忽略图像间关系,故事单调,且受限于单一训练数据集的知识。

      • MMKG 的优势:

        • 通过 distill-enrich-generate 三阶段框架,将连续图像的词汇与 MMKG 查询匹配,丰富语义三元组。

        • 利用图谱关系进行逻辑推理,使生成故事更连贯,效果优于不使用 KG 的方法。

    多模态推荐系统

    • 多模态推荐系统背景

      • 目标:根据用户历史数据推荐用户可能喜欢的物品,同时兼顾准确性、新颖性、多样性和稳定性。

      • 多模态场景:推荐系统中存在图像、文本等多种模态信息,需要联合利用这些信息。

    • MMKG 的作用

      • 丰富物品表示:MMKG将不同模态的数据整合为层级结构,使物品表示更加丰富,从而解决协同过滤中的冷启动问题。

      • 逻辑推理和可解释推荐:MMKG的图结构可用于设计基于层级的注意力路径(hierarchy-based attention path),减少动作空间,并聚焦于关键中间实体,从而生成更明确、可解释的推荐。

    • 实验结果与优势

      • 利用 MMKG 的结构化文本和视觉知识,能够显著提升推荐系统的推荐质量。

    一般领域应用

    • 一般领域应用

      • 除了电影推荐系统和电商问答系统,MMKG 还被应用于多模态任务,例如跨模态检索、对话系统和目标检测。

    • 具体案例

      • 地理与学术检索:利用地理学术 MMKG,实现多跳查询,如检索特定地理位置相关的论文和机构信息。

      • 学术代码检索:利用论文与代码构建的学术 MMKG,实现代码级别的检索。

      • 医疗领域:结合 X 光、CT、超声等图像与文本描述,增强实体表示,改进 COVID-19 医患对话系统的性能,同时降低接触风险。

      • 考古学:辅助甲骨文检测与识别,不仅分析物理特征(边缘、纹理、裂纹等),还提供相关文献、位置和机构信息,帮助决策。

    • 优势

      • MMKG 可以整合多模态信息(图像 + 文本),提升检索、识别和决策的精确性和可用性。

    问题与挑战

    1. 复杂符号知识的落地(Complex Symbolic Knowledge Grounding)

    • 问题:不仅需要单一实体、概念或关系,还需要处理多关系的子图或路径的落地。例如,涉及特朗普家族的多关系子图,需要找到能够表达整个家庭关系的图片。

    • 挑战:多关系之间通常交错复杂,难以找到一张或几张图像同时准确地表达所有关系。

    2. 质量控制(Quality Control)

    • MMKG 特有问题:除了传统知识图谱的准确性、完整性、一致性和新鲜度,MMKG 的图片可能存在特殊问题:

      1. 实体图片混淆:相互关联的实体容易混在一起(如某鸟和鳄鱼共生)。

      2. 著名实体干扰:知名实体的图片可能误出现在相关实体的落地结果中(如刘慈欣的书籍)。

      3. 抽象概念难以可视化:如“傲慢”等抽象概念,难以固定视觉特征,容易得到无关图片。

    3. 效率问题(Efficiency)

    • 构建效率:处理多模态数据增加了构建成本和复杂度。例如,NEIL 收集 40 万张图片就需要约 35 万 CPU 小时,而典型 KG 需要落地数十亿条实例。

    • 在线应用效率:MMKG 在实时应用中也必须高效,否则无法满足实时响应需求。

    • 扩展性问题:尤其是视频数据的落地,会进一步放大效率和可扩展性挑战。

    http://www.dtcms.com/a/392652.html

    相关文章:

  4. 基于python spark的航空数据分析系统的设计与实现
  5. 【每日一问】运放单电源供电和双电源供电的区别是什么?
  6. LeetCode算法领域的经典题目之“三数之和”和“滑动窗口最大值”问题
  7. SpringCloudConfig:分布式配置中心
  8. Go变量与类型简明指南
  9. 每天学习一个统计检验方法--曼-惠特尼U检验(以噩梦障碍中的心跳诱发电位研究为例)
  10. linux创建服务器
  11. 线性代数基础 | 零空间 / 行空间 / 列空间 / 左零空间 / 线性无关 / 齐次 / 非齐次
  12. 【StarRocks】-- 同步物化视图实战指南
  13. 【C++项目】微服务即时通讯系统:服务端
  14. 开源WordPress APP(LaraPressAPP)文档:1.开始使用
  15. 单调破题:当指数函数遇上线性方程的奇妙对决
  16. 【C++】vector 的使用和底层
  17. 指标体系单一只关注速度会造成哪些风险
  18. 智能体落地与大模型能力关系论
  19. QPS、TPS、RT 之间关系
  20. Day27_【深度学习(6)—神经网络NN(4)正则化】
  21. NeurIPS 2025 spotlight 自动驾驶最新VLA+世界模型 FSDrive
  22. Nodejs+html+mysql实现轻量web应用
  23. AI模型测评平台工程化实战十二讲(第二讲:目标与指标:把“测评”这件事说清楚(需求到蓝图))
  24. 20.二进制和序列化
  25. 接口自动化测试实战
  26. 为企业系统无缝集成AI检测能力:陌讯AIGC检测系统API接口调用全指南
  27. RESTful API
  28. Linux知识回顾总结----进程间通信(上)
  29. Qwen3-Next深度解析:阿里开源“最强性价比“AI模型,如何用3%参数超越全参数模型?
  30. AutoResetEvent:C# 线程同步工具
  31. ThinkSound - 阿里通义开源的AI音频生成模型
  32. Wan2.2-S2V-14B:音频驱动的电影级视频生成模型全方位详解
  33. 基于C++11手撸前端Promise——从异步编程到现代C++实践