当前位置：首页 > news >正文

多模态知识图谱

news 2025/9/21 7:28:17

摘要

背景：
- 知识图谱（KG）作为一种大规模语义网络，已广泛应用于文本理解、推荐系统、问答等任务。
- 现有的知识图谱大多基于符号化文本，缺乏与真实世界感知信息的连接。
问题：
- 单纯的符号表示（文字）不足以让机器真正理解实体或概念的含义。
- 需要将符号与真实世界的多模态信息（如图像、声音、视频）进行“符号落地”（grounding），才能更好地表达和理解。
动机：
- 多模态知识有助于改善许多任务，例如：
  - 关系抽取：图像能帮助识别文本难以描述的关系（如 partOf、colorOf）。
  - 文本生成：借助图像和MMKG，机器能生成更精确的实体级描述。
- 因此，随着应用需求增加，MMKG的研究和应用快速发展。
贡献：
- 本文是首个系统性综述MMKG（以文本+图像为主）的研究。
- 主要从两个方面进行总结：
  1. 构建：从图像到符号、以及从符号到图像的双向构建方式。
  2. 应用：分为 In-MMKG 应用（改善MMKG自身的质量与融合）和 Out-of-MMKG 应用（为多模态任务提供支持）。
- 论文目标是：
  - 提供全面综述；
  - 对方法优劣进行深入分析；
  - 揭示未来研究的机会和方向。

引言

定义

回顾知识图谱（KG）的定义
- 传统KG是一个有向图，由实体、关系、属性及其对应的三元组组成。
- 三元组分为关系三元组 (s, p, o) 和属性三元组 (s, p, o)。
引入多模态知识图谱（MMKG）
- MMKG是在传统KG的基础上，把部分符号知识与非文本模态（如图像、声音、视频）关联起来。
- 举例：一个关系三元组 (s, p, o) 可以配上一张描述关系的图像。
两种主要的MMKG表示方式
- A-MMKG：把多模态数据当作实体的属性值（例如 “Eiffel Tower — hasImage — Eiffel Tower.jpg”）。
- N-MMKG：把多模态数据本身当作新的实体，引入更多跨模态和模态内的关系（如 contain、nearBy、sameAs、similar），并且通常会用图像描述符（HOG、CLD等）来表示图像特征
主流MMKG构建方法与代表性系统
- 基于视觉知识抽取：如 NEIL、GAIA、RESIN、MMEKG 等，主要通过图像识别和分类来获取视觉实体和关系。
- 基于符号对齐（symbol grounding）：如 IMGpedia、ImageGraph、MMKG、Richpedia、VisualSem 等，通过将图像与已有KG中的实体对齐（例如来自维基百科、搜索引擎），并进一步考虑图像的多样性和实体的可视化性。

技术知识

多模态的定义
- 在计算机科学与AI中，如果一个问题涉及多种模态的数据（如图像 + 文本），就是多模态问题。
- 常见任务：图像描述 (image caption)、视觉问答 (VQA)、跨模态检索 (cross-modal retrieval)。
多模态学习（Multi-Modal Learning）的五大方向
- 表示（Representation）：学习不同模态的特征表示，可以投射到统一空间或保持独立空间但满足某些约束。
- 翻译（Translation）：从一种模态翻译到另一种模态（例：图像→文本）。
- 对齐（Alignment）：找出模态之间的对应关系，可直接用于视觉定位、或作为预训练任务。
- 融合（Fusion）：将多模态信息结合起来完成预测任务，常用注意力机制建模交互。
- 协同学习（Co-Learning）：利用资源丰富的模态来弥补另一模态的低资源问题。
视觉-语言预训练模型（VL-PTMs）
- 近几年大型公司和研究机构（如 OpenAI、微软、华为）都在推动 VL-PTMs 的发展。
- 代表：CLIP（基于 4 亿图文对训练），显著提升了图像分类和跨模态检索性能。
- VL-PTMs 的关键在于：
  - 使用大规模图文数据 + 自监督预训练任务（如 MLM、图文对齐、遮掩预测）。
  - 加入更细粒度的跨模态任务（如对象对齐、关系对齐）来增强跨模态理解。

讨论

背景
- 尽管已有很多多模态学习和 VL-PTMs 的研究，但引入 MMKG 仍是一个新趋势。
- MMKG 能在多个方面增强多模态任务。
五大优势
1. 丰富表示：提供充足的背景知识，尤其能增强长尾实体/概念的表示。
2. 理解未见对象：通过符号知识帮助识别统计模型难以处理的新对象。
3. 支持可解释推理：例如 OK-VQA，需要外部知识才能回答的问题，MMKG 能提供推理支持。
4. 补充NLP任务特征：图像可辅助解决歧义（如判断“Rocky”是狗还是人名）。
5. 补充VL-PTMs：VL-PTMs 学到的是隐式跨模态知识，而 MMKG 能提供显式、细粒度、长尾和背景知识。
总结
- 仅靠多模态数据或 VL-PTMs 的信息仍有限。
- 如果能利用大规模 MMKG，多模态任务的表现将得到进一步提升。

如何构建多模态知识图谱

MMKG 构建的本质：就是把传统知识图谱中的符号知识（实体、概念、关系等）与对应的图像关联起来。
两种主要方法：
1. 从图像到符号：给图像打上来自知识图谱的标签；
2. 从符号到图像：把知识图谱中的符号落地到对应的图像。

从图像到符号

核心思路
- 借助计算机视觉（CV）中的 图像标注技术，把图像和知识图谱中的结构化符号（概念、实体等）关联起来。
- 示例：NEIL 把图像链接到 WordNet，ImageSnippets 把图像链接到 DBpedia。
实现方式
- 图像标注模型通过学习图像内容与标签集（对象、场景、实体、属性、关系、事件等）的映射来完成任务。
- 训练依赖人工标注数据集（众包标注边界框、图像区域及标签），如图示例（Figure 2）。
代表性系统
- 文中提到一些已有的图像视觉知识抽取系统（列在 Table 2(a)），可以作为 MMKG 构建的基础。
细分任务
- 将图像链接到符号的过程可拆分为：
  - 视觉实体/概念抽取 (Sec. 3.1.1)
  - 视觉关系抽取 (Sec. 3.1.2)
  - 视觉事件抽取 (Sec. 3.1.3)

图像的实体抽取

任务定义
- 在图像中检测并定位目标视觉对象，并将其标注为知识图谱中的实体或概念符号。
挑战
- 需要大规模、细粒度且高质量的标注数据集，但现有图像数据大多是粗粒度的，难以满足 MMKG 构建需求。
现有进展
- 两类方法：
  1. 目标识别（Object Recognition）
    - 通过检测器 + 分类器标注图像中的对象。
    - 依赖人工标注数据集（如 MSCOCO、Flickr30k）。
    - 问题：只能识别有限预定义类别，精度有限（如 GAIA 在 MSCOCO 上仅 43%）。
  2. 视觉对齐（Visual Grounding）
    - 不依赖标注框，而是利用图文对（image-caption pairs）进行弱监督学习。
    - 通过注意力或显著性方法定位图像区域，输出视觉实体/概念。
    - 在 GAIA 上精度更高（约 69.2%），但存在语义尺度不一致的问题（如 troops 被映射成个体士兵）。
机会（Opportunities）
1. VL-PTMs 驱动的抽取：如 CLIP、ViLT 等大规模视觉-语言预训练模型，可以直接通过注意力映射识别实体，精度高。
2. 分类体系扩展（Taxonomy Extension）：
  - 图像常有多级合理标签（如 Boy/Man/Person），需要结合层级词汇表（taxonomy）来选择最合适的语义层级，避免歧义。

总结：这一段主要讲了 视觉实体/概念抽取的定义、数据挑战、两类主流方法（目标识别 vs 视觉对齐）的优缺点，并指出未来可通过 VL-PTMs 和分类体系优化 来提升效果。

图像的关系抽取

1. 任务定义

目标：识别图像中视觉实体/概念之间的语义关系，并将其映射到知识图谱中的关系。
区别：CV 社区的视觉关系检测通常是表层的（如 (Person, standing on, Beach)），而 MMKG 构建需要更通用、更抽象的 KG 级关系（如 (Jack, spouse, Rose)）。

2. 挑战

当前方法提取的多为场景关系，难以对齐到 KG 中更抽象的语义关系。

3. 现有进展

两类主要方法：
1. 基于规则的方法
  - 专注于空间关系、动作关系等，通过预定义规则和启发式特征判断关系。
  - 优点：精度高（如 NEIL 系统平均检测精度 79%）。
  - 缺点：需要大量人工规则，难以大规模应用。
2. 基于统计的方法
  - 将视觉、空间、统计特征编码为向量，利用分类模型预测关系。
  - 借助语言先验（如 subject+predicate≈object，或用语言模型约束）来提高准确率，但视觉信息贡献较小。
  - 结合图结构（GCN、图更新机制）提升推理效果。
  - 现状：谓词检测的 recall@50 可达 85.6%，但三元组检测 recall@50 < 23%，性能有限。
长尾与细粒度关系抽取
- 问题：训练数据分布不均，模型偏向预测频繁关系。
- 解决方向：度量学习、迁移学习、少样本学习、对比学习，但仍局限于特征层融合。
- 细粒度关系（如 sit on / walk on / lay on）常被预测为粗粒度 on。
- 新方法：反事实因果推理（减少上下文偏差）、层级分类（由具体到泛化关系逐级预测）。

4. 机会（未来方向）

视觉知识关系判别：区分“图像场景信息”与“被广泛接受的知识”，避免把仅属于某一图像的关系当作普遍知识。
基于推理的关系检测：不仅依赖特征融合，而是利用推理链进行显式预测。例如根据身体部位动作推理 (Person, kick, Football)。
- 难点：现有方法多依赖人工构建数据集，需要自动化总结推理链。

图像事件抽取

1. 任务定义

事件包括：触发词（trigger） + 论元（arguments）及其角色（roles）。
子任务：
1. 预测事件类型；
2. 定位并抽取事件论元（对象/概念）及其角色。
与 情境识别（situation recognition） 不同：后者只识别事件类别，不抽取论元。

2. 挑战

事件类型需要预定义 schema，但实际存在大量未定义的视觉事件 → 如何自动挖掘事件模式？
如何从图像或视频中抽取事件的论元？

3. 现有进展

(1) 视觉事件 Schema 挖掘
- 借助大规模图像-文本对，利用触发词检索事件相关图像 → 候选图像区域通过视觉定位标注。
- 使用频繁项集挖掘（如 Apriori）找到高频视觉模式，自动生成事件 schema。
- 可以修正人工 schema 的缺漏（如 Attack 事件中，实际数据里 Smoke、Police 更常见）。
(2) 视觉事件论元抽取
- 根据图像全局特征分类事件类型，再通过目标识别或视觉定位抽取论元。
- MMEKG 在实例级评估中，视觉事件与跨模态三元组的精度约为 64%。
- 需要保证视觉论元与文本论元在关系上对齐（如对齐情境图 situation graph 与 AMR 图）。
- 视频比图片更适合事件抽取：事件往往跨越多个帧。已有方法简化为从关键帧抽取论元。

4. 机会（未来方向）

长视频中的序列事件抽取：如何从包含多个事件的长视频中分割并提取事件。
复杂事件的子事件分解：如 Making Coffee → 一系列子事件（清洗机器、放咖啡豆、开启机器），需要时间轴化的顺序抽取。

符号到图像

核心概念
- 符号落地（Symbol Grounding）：将知识图谱中的符号（实体、概念或关系三元组）与合适的多模态数据（如图像）对应起来。
现有成果
- 一些典型通过符号落地构建的 MMKG 已列在 Table 2(b)。
子任务划分
- 符号落地过程可细分为三个任务：
  1. 实体落地（Entity Grounding）
  2. 概念落地（Concept Grounding）
  3. 关系落地（Relation Grounding）

实体落地

1. 任务定义

将知识图谱中的实体与其对应的多模态数据（主要是图像，有时也包括视频和音频）关联起来。

2. 挑战

如何低成本地找到足够多的高质量图像？
如何从大量候选图像中选择最匹配实体的图像？

3. 现有方法

两大图像来源：
1. 在线百科（如 Wikipedia/DBpedia）
  - 优点：容易获取初步大规模 MMKG。
  - 缺点：
    - 很多实体没有图像（仅 6.7% 实体有 ≥3 张图像，79.35% 没有图像）。
    - 图像质量和相关性参差不齐（非视觉化实体可能引入误图）。
    - 覆盖率有限。
2. 搜索引擎
  - 优点：覆盖率高，可通过关键词查询获取大量图像。
  - 缺点：容易引入噪声，需要消歧（如 “Bank” 会同时返回河岸和银行）。
  - 解决策略：扩展查询词（父类词或实体类型）、图像多样性检索模型去重、选择最相关的图像。
综合方法
- 通常结合百科和搜索引擎两种方法，既保证质量又提高覆盖率。
- 实体与视觉特征解耦，可区分视觉相似的实体，便于构建细粒度或领域定向的 MMKG（如电影、产品、军事领域）。

4. 机会（未来方向）

典型图像选择：每个实体有多张图像，如何确定最能代表实体的子集？
多上下文多重落地（Multiple Grounding）：实体在不同上下文下需要关联不同图像（如 Donald Trump 在不同事件或时期的照片）。
文本-图像检索：如果有大规模图文语料，可将实体落地转化为文本-图像检索问题（如电商领域的应用）。

概念落地

1. 任务定义

将知识图谱中的概念（Concept）与代表性的、多样化的、可区分的图像关联起来。
与实体落地不同，概念落地面对的是更抽象、更广泛的类别（如“Princess”“Happiness”）。

2. 挑战

并非所有概念都可视化（如“irreligionist”难以对应具体图像）。
如何从多样化的图像中选出最具代表性和区分性的图像？
- 例如，“Princess”可能有迪士尼公主、历史公主、现代公主等不同图像。

3. 现有方法

研究主要分为三个任务：

可视化概念判断（Visualization Concept Judgment）
- 自动判断哪些概念可视觉化。
- 方法包括：基于语法/语义的判断、搜索引擎图片数量或相似性、手动标注等。
- 挑战：抽象概念仍难准确判断。
代表性图像选择（Representative Image Selection）
- 从候选图像中挑选最具代表性和可区分性的图像。
- 方法包括：
  - 聚类方法（K-means、谱聚类），选择类内方差小的图像。
  - 结合语义信息（图像标签、标题）进行重排和区分。
图像多样化（Image Diversification）
- 确保所选图像在多样性和相关性上平衡。
- 方法包括：
  - 基于多样性分数和相关性分数的排序（Max-Min 方法）。
  - 图算法（动态规划、马尔可夫随机游走）寻找最优图像序列。
- 目标：覆盖尽可能多的不同视觉子类或主题。

4. 未来研究机会

抽象概念落地（Abstract Concept Grounding）
- 情感或抽象概念（如 Happiness、Anger、Love、Beauty）可以通过固定视觉符号或词语聚类表示。
动名词概念落地（Gerunds Concept Grounding）
- 如 dancing、wrestling，可通过身体姿态、表情、关节位置等特征关联图像。
通过实体间接落地不可视化概念（Non-visualizable Concept via Entity Grounding）
- 对于不可直接视觉化的概念，可通过其典型实体的图像间接表示（如用 Einstein 的照片表示 Physicist）。
- 面临的问题：
  - 典型实体的主观性差异。
  - 如何选择多实体图像总结概念。
  - 是否抽象多实体图像的共性视觉特征。

关系落地

1. 任务定义

将知识图谱中的关系（Relation）与能够体现该关系的图像关联起来。
输入：一个或多个三元组（subject, relation, object）；
输出：与关系语义最相关的图像（例如，将 (Justin Bieber, couple, Selena Gomez) 对应到“亲吻”的图像，而不是“健身”场景）。

2. 挑战

图像检索时，顶端结果通常偏向与三元组的主体或客体相关，而非反映关系本身。
如何找到真正能体现语义关系的图像，而不仅仅是包含主体或客体？

3. 现有方法

基于共现的方法
- 假设如果在 Wikipedia 描述中两实体存在某关系，那么它们的视觉对象也存在该关系。
- 局限：现实中两个对象未必同时出现在一张图像中，或者图像中呈现的关系可能不是预期的。
图结构匹配方法
- 将关系三元组作为查询，将图像表示为多 (subject, predicate, object) 组合的场景图（scene graph）。
- 使用多分支 CNN 或 GCN 提取图像的结构特征。
- 通过对象节点与关系节点的匹配计算文本三元组与图像的相似度，实现细粒度匹配。
细粒度文本-图像检索
- 相比全局跨模态嵌入匹配，更注重对象与关系的逐项匹配（item-by-item matching）。
- 可以将文本和图像都表示为图，然后做图匹配。

4. 未来机会

目前主要关注可视化的空间关系和动作关系（如 leftOf、on、ride、eat）。
大多数语义关系（如 isA、Occupation、Team、Spouse）在图像中不易直接观察，缺乏训练数据，难以检索对应图像。
有潜力利用一些结合文本实体与视觉关系的数据集来辅助训练。

两种方式比较

1. 适用场景 (Applicable Scenarios)

图像标注方式更适合：当多模态数据是核心知识时，例如：
- 甲骨文识别系统中的甲骨照片
- 教学服务中的课堂音频
- 深度视频理解任务中的电影视频
符号落地方式更适合：当多模态数据冗余或噪声多时，可以依赖已有的精炼符号来匹配图像，例如：
- 电影本体在推荐系统
- 电商对话系统的产品本体
- 学术信息检索中的论文本体

“第一公民”取决于知识需求：想分析论文与地图关系，论文是第一公民；想分析地图与地图中区域关系，地图是第一公民。

2. 效率 (Efficiency)

符号落地：通常是基于检索的方法，效率高，适合从零开始构建 MMKG。
图像标注：通常依赖分类和检测方法，提取实体、概念和关系耗时较长。
例：NEIL 先用 NELL 本体检索图片，再提取图像中的对象和关系。

3. 质量 (Quality)

图像标注问题：粗粒度标注、语义层次不合理。
符号落地问题：缺失或错误匹配图像，尤其是长尾实体可能没有合适图像。
总体：符号落地在语义精度上更优，但图像覆盖仍可能不完全。

应用

概览：表格列出了主流应用任务、对应的基准数据集以及 MMKG 带来的好处。
分类：将应用分为三类：
- KG 内部应用 (in-KG applications)
- KG 外部应用 (out-of-KG applications)
- 特定领域应用 (domain applications)

多模态知识图谱内部应用

定义：In-MMKG 应用是指在 MMKG 内部进行的任务，此时实体、概念和关系的嵌入已经被学习好。
嵌入基础：介绍了 MMKG 嵌入（embedding）的来源和方法：
- 基于语义匹配的模型：如 RESCAL，通过向量空间计算三元组的存在可能性。
- 基于平移距离的模型：如 TransE，假设
多模态处理问题：
- 视觉编码器：用 CNN 或 Transformer 提取图像的隐藏特征作为视觉嵌入，传统显式特征（如 GHD、HOG、CLD）难以利用。
- 知识融合：可通过向量拼接、平均池化、SVD/PCA 等方法组合不同模态，或将不同模态投影到统一空间进一步学习统一嵌入。
后续任务：引入四类典型的 In-MMKG 应用：
- 链接预测（link prediction）
- 三元组分类（triple classification）
- 实体分类（entity classification）
- 实体对齐（entity alignment）

链接预测

任务定义：
- 预测三元组 (h, r, t) 中缺失的实体或关系，例如 (?, r, t)、(h, r, ?) 或 (h, ?, t)。
- 与传统 KG 相似，通常通过对候选实体或关系进行打分和排序来完成。
MMKG 的特点：
- 在 MMKG 中，实体和关系的嵌入融合了图像等多模态信息，从而提供额外的视觉知识。
- 例如，一个人的图像可以提供年龄、职业或头衔等信息，丰富实体表示。
方法和应用：
- IMAGEgraph：处理“视觉-关系查询”，可预测未见过图像之间的关系，实现零样本（zero-shot）关系预测。
- MMKG 数据集：通过多模态（数值+图像）信息进行 sameAs 链接预测，验证多模态信息对任务的互补性。

三元组分类

任务定义：
- 判断一个三元组 (h, r, t) 是正确的还是错误的，即区分正三元组和负三元组。
- 可视为知识图谱补全（KG completion）的一种形式。
方法：
- 利用在 MMKG 上学习到的嵌入模型，计算每个三元组的能量分数 E(h,r,t)。
- 为每种关系 r 设定阈值 δr，如果能量分数高于 δr，则预测该三元组为负样本。
- 训练时通过替换三元组中的 h、r 或 t 来生成负样本，用于模型学习。

实体分类

实体分类的定义
- 将知识图谱中的实体（Entity）划分到不同的语义类别（concepts）。
- 可以视为一种特殊的链接预测任务：关系为 IsA，尾实体是一个概念。
传统方法与局限
- 传统知识图谱（KG）中有很多实体分类模型，这些模型可以用于 MMKG。
- 但是，多模态知识图谱（MMKG）中实体和概念包含丰富的多模态信息（如文本、图像、音频等），如果没有好的 MMKG 嵌入模型，这些信息难以充分利用。
多模态嵌入模型
- 一些工作尝试从多种模态中学习实体和概念的嵌入，然后映射到统一的表示空间（joint representation space）。
- 但纯粹的节点嵌入方法可能不足以解决 MMKG 的任务，需要同时考虑图结构信息。
评测基准
- [140] 提出了一套高质量、多模态的基准数据集，用于精确评估 MMKG 上的节点分类（node classification）任务。

实体对齐

实体对齐的定义与目的
- 实体对齐旨在将不同 MMKG 中表示同一现实世界实体的节点对应起来。
- 当两个 MMKG 存在重叠时，实体对齐可以将它们整合成一个统一的图谱。
核心方法
- 学习不同知识图谱中实体的表示（embedding），然后计算跨图谱实体对的相似度。
- 传统 KG 的实体嵌入特征：
  - 图内上下文信息：如 OWL 属性语义、邻居节点共现、属性值兼容性
  - 外部信息：如外部词典、维基百科链接
多模态知识图谱（MMKG）中的扩展
- 引入了多模态特征（图像、文本等），需要专门的 MMKG 实体对齐嵌入模型。
- 方法包括：
  - 分别编码不同模态的特征向量，然后通过知识融合技术合并为实体最终表示。
  - [156] 使用 ranking loss 训练嵌入。
  - [157] 设计了一个多模态互补损失函数：
    其中分别是三种模态的嵌入，eee 是实体的最终嵌入，是权重超参数。
另一种方法：Product of Experts (PoE)
- 用于处理跨图谱的查询（如 (h?, sameAs, t) 或 (h, sameAs, t?)）。
- 将视觉特征整合进端到端学习框架，比简单拼接或集成方法效果更好。

外部应用

多模态实体识别和连接

Out-of-KG 应用的定义
- 指那些不局限于知识图谱内部，而是可以借助 MMKG 提升效果的下游任务。
- 本段重点关注 如何利用 MMKG 以及它相比其他方法的优势。
多模态实体识别（MNER）
- 传统 NER 只使用文本，但实体提及存在歧义和多样性问题。
- MNER 利用文本和图像，图像提供补充信息来辅助识别。
- MMKG 的优势：
  - 提供实体的视觉特征，增强文本或图像表示。
  - 利用实体的两跳邻居或图像信息进行消歧。
  - 提供更多标签或相关词，提高跨模态交互效果。
多模态实体链接（MEL）
- 将文本中歧义的实体提及映射到知识图谱中的实体。
- MMKG 的使用方式：
  1. 提供目标实体候选集合。
  2. 学习多模态分布式表示，计算提及与实体之间的相关性。
- 面临的挑战：
  - 图像中的无关信息可能引入噪声，影响表示学习。
  - 解决方法：
    - 两阶段图文相关性机制过滤无关图像。
    - 多头注意力机制捕捉关键特征，通过查询候选实体的多跳邻居增强表示。

视觉问答

VQA 的挑战
- 需要对问题进行准确语义解析，并理解图像中不同对象和场景之间的关系。
- 很多 VQA 数据集（如 GQA、OK-VQA、KVQA）的问题需要结合 视觉信息和外部知识 进行推理。
- 例如，“图中的毛绒玩具对应哪位美国总统？”需要先识别“Teddy Bear”，再通过知识图谱推理出“Theodore Roosevelt”。
MMKG 在 VQA 中的三大作用
1. 提供外部知识：关于图像中实体及其关系的信息，帮助理解视觉内容。
2. 辅助答案推理：将图像实体和问题中的文本实体与 MMKG 中的事实结合，重新加权答案，通过统一的多模态表示（图像、问题、结构化知识）增强推理能力。
3. 图结构表示与显式推理：将 MMKG 中的多模态实体和关系三元组表示为异构图的节点和边，便于使用启发式规则、SPARQL 查询或图神经网络（GNN）进行推理。
MMKG 构建与应用示例
- MMKG 可通过结合现有知识图谱和标注图像数据集构建。
- 例如，[51] 中的显式知识来源包括：
  - hasPart 三元组（hasPart KB）
  - hasPart/isA 三元组（DBpedia）
  - 常识三元组（ConceptNet）
  - 视觉对象的位置信息（Visual Genome）
- 将 MMKG 的显式知识与视觉语言预训练模型（VL-PTMs）的隐式知识结合，能显著优于仅使用 VL-PTMs 的方法，而且两者知识大多不重叠。

图文匹配

图文匹配任务概述
- 任务目标：计算输入图像与文本对之间的语义相似度，用于图文检索或文本图像检索。
- 一般方法：将图像和文本映射到一个 联合语义空间，学习统一的多模态表示，再进行相似度计算。
- 传统方法：利用多标签检测模块提取图像语义概念，并与全局上下文融合。
- 问题：预训练的检测模型难以发现长尾概念，导致表示受限，性能下降。
MMKG 的作用
- 扩展视觉与语义概念：利用多模态实体间关系补充检测模型难以捕捉的长尾概念。
- 构建场景图（Scene Graphs）：通过 MMKG 中频繁共现的概念对（如 house-window, tree-leaf）增强图像概念表示，提供语义上下文信号。
- 对齐跨模态表示：利用图结构信息表示图像和文本的高层语义，有助于本地和全局特征对齐，提高推理和解释能力。
- 统一多模态表示：MMKG 提供的结构化知识帮助图像和文本学习更一致的多模态表示，增强匹配精度。

多模态生成任务

图像标注（Image Tagging）
- 问题：传统方法受限于标签分布偏差、噪声和不准确标签。
- MMKG 的优势：
  - 提供结构化概念层级（同义词、上位词、下位词等）。
  - 提供概念对应的代表性和区分性图像。
  - 通过 MMKG 可生成更精确的候选标签并减少歧义，优于 ConceptNet、WebChild、ImageNet 等方法。
图像描述（Image Captioning）
- 问题：
  1. 过度依赖目标检测器，导致对象/关系和文本描述语义不一致。
  2. 无法描述未见过的新对象或概念。
- MMKG 的优势：
  - 利用语义图进行关系推理，使生成的描述更准确合理。
  - 利用符号化知识理解未见对象，通过多标签分类器将视觉对象与知识库实体关联，扩展图像表示。
- 命名实体感知图像描述（Entity-aware Image Captioning）
  - MMKG 可实现跨模态对齐，将文本中的命名实体与图像中的视觉对象匹配，提高描述的精确性和信息量。
  - 利用结构化知识显著提升 BLEU、METEOR、ROUGE、CIDEr 和实体 F1 分数。
视觉故事讲述（Visual Storytelling）
- 问题：传统方法把任务当作顺序图像描述，忽略图像间关系，故事单调，且受限于单一训练数据集的知识。
- MMKG 的优势：
  - 通过 distill-enrich-generate 三阶段框架，将连续图像的词汇与 MMKG 查询匹配，丰富语义三元组。
  - 利用图谱关系进行逻辑推理，使生成故事更连贯，效果优于不使用 KG 的方法。

多模态推荐系统

多模态推荐系统背景
- 目标：根据用户历史数据推荐用户可能喜欢的物品，同时兼顾准确性、新颖性、多样性和稳定性。
- 多模态场景：推荐系统中存在图像、文本等多种模态信息，需要联合利用这些信息。
MMKG 的作用
- 丰富物品表示：MMKG将不同模态的数据整合为层级结构，使物品表示更加丰富，从而解决协同过滤中的冷启动问题。
- 逻辑推理和可解释推荐：MMKG的图结构可用于设计基于层级的注意力路径（hierarchy-based attention path），减少动作空间，并聚焦于关键中间实体，从而生成更明确、可解释的推荐。
实验结果与优势
- 利用 MMKG 的结构化文本和视觉知识，能够显著提升推荐系统的推荐质量。

一般领域应用

一般领域应用
- 除了电影推荐系统和电商问答系统，MMKG 还被应用于多模态任务，例如跨模态检索、对话系统和目标检测。
具体案例
- 地理与学术检索：利用地理学术 MMKG，实现多跳查询，如检索特定地理位置相关的论文和机构信息。
- 学术代码检索：利用论文与代码构建的学术 MMKG，实现代码级别的检索。
- 医疗领域：结合 X 光、CT、超声等图像与文本描述，增强实体表示，改进 COVID-19 医患对话系统的性能，同时降低接触风险。
- 考古学：辅助甲骨文检测与识别，不仅分析物理特征（边缘、纹理、裂纹等），还提供相关文献、位置和机构信息，帮助决策。
优势
- MMKG 可以整合多模态信息（图像 + 文本），提升检索、识别和决策的精确性和可用性。

问题与挑战

1. 复杂符号知识的落地（Complex Symbolic Knowledge Grounding）

问题：不仅需要单一实体、概念或关系，还需要处理多关系的子图或路径的落地。例如，涉及特朗普家族的多关系子图，需要找到能够表达整个家庭关系的图片。
挑战：多关系之间通常交错复杂，难以找到一张或几张图像同时准确地表达所有关系。

2. 质量控制（Quality Control）

MMKG 特有问题：除了传统知识图谱的准确性、完整性、一致性和新鲜度，MMKG 的图片可能存在特殊问题：
1. 实体图片混淆：相互关联的实体容易混在一起（如某鸟和鳄鱼共生）。
2. 著名实体干扰：知名实体的图片可能误出现在相关实体的落地结果中（如刘慈欣的书籍）。
3. 抽象概念难以可视化：如“傲慢”等抽象概念，难以固定视觉特征，容易得到无关图片。

3. 效率问题（Efficiency）

构建效率：处理多模态数据增加了构建成本和复杂度。例如，NEIL 收集 40 万张图片就需要约 35 万 CPU 小时，而典型 KG 需要落地数十亿条实例。
在线应用效率：MMKG 在实时应用中也必须高效，否则无法满足实时响应需求。
扩展性问题：尤其是视频数据的落地，会进一步放大效率和可扩展性挑战。

查看全文

http://www.dtcms.com/a/392652.html