食品计算—Ingredient-Guided RGB-D Fusion Network for Nutritional Assessment
🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中一起航行,共同成长,探索技术的无限可能。
🚀 探索专栏:学步_技术的首页 —— 持续学习,不断进步,让学习成为我们共同的习惯,让总结成为我们前进的动力。
🔍 技术导航:
- 人工智能:深入探讨人工智能领域核心技术。
- 自动驾驶:分享自动驾驶领域核心技术和实战经验。
- 环境配置:分享Linux环境下相关技术领域环境配置所遇到的问题解决经验。
- 图像生成:分享图像生成领域核心技术和实战经验。
- 虚拟现实技术:分享虚拟现实技术领域核心技术和实战经验。
🌈 非常期待在这个数字世界里与您相遇,一起学习、探讨、成长。不要忘了订阅本专栏,让我们的技术之旅不再孤单!
💖💖💖 ✨✨ 欢迎关注和订阅,一起开启技术探索之旅! ✨✨
文章目录
- 1. 背景介绍
- 我们的主要贡献总结如下:
- 二、相关工作
- A. 基于 RGB 图像的方法
- B. 基于 RGB-D 图像的方法
- III. 材料与方法
- A. 数据集
- B. 方法
- 1)整体框架
- 2)多频双模态融合模块
- 3) CLIP 融合模块
- 4)渐进式融合模块
- 5)成分引导模块
- C. 训练目标(Loss)
- D. 评估指标
- IV. 实验与结果
- A. 实验设置
- 1)实现细节
- 2)非对称双分支骨干网络
- B. 主要结果
- 1)与单 RGB 图像方法对比
- 2)与 RGB-D 融合方法对比
- C. 消融实验
- 1)非对称双分支骨干网络有效性
- 2)渐进式融合模块有效性
- 3)多频双模态融合模块有效性
- 4)CLIP 融合模块有效性
- 5)成分引导模块有效性
- D. 复杂性与效率分析
- E. 可视化分析
- V. 讨论
- VI. 结论
1. 背景介绍
Feng Z, Xiong H, Min W, et al. Ingredient-Guided RGB-D Fusion Network for Nutritional Assessment[J]. IEEE Transactions on AgriFood Electronics, 2024.
🚀以上学术论文翻译由ChatGPT辅助。
农产品的营养价值是评估其质量的重要指标,直接影响人们的饮食选择和整体健康水平。营养评估研究通过分析食物所含营养成分,为食品的生产、加工和销售提供了科学依据。然而,传统方法常常存在准确率不高、耗时长、专业人才短缺等问题。随着人工智能的快速发展,基于视觉的营养评估方法为改善膳食健康提供了更便捷的手段。
然而,现有的基于 RGB 图像的视觉方法仍面临诸多挑战,如受光照变化影响严重,导致营养评估精度下降。RGB-D 融合方法是一种可替代方案,通过结合 RGB 图像和深度图,提升对食物三维结构的感知能力。但现有的 RGB-D 方法大多依赖简单的融合策略,难以实现高精度的营养评估。
此外,当前基于视觉的方法在检测食物表面的微小成分(如油脂和糖分)方面存在困难,而这些成分往往是判断食材种类和营养成分的关键,影响评估的准确性。
为此,本文提出了一种全新的 基于成分引导的 RGB-D 融合网络。该方法将 RGB 图像与深度图结合,并借助成分信息引导模型实现更可靠的营养评估。具体而言,我们设计了一个 多频双模态融合模块(multi-frequency bimodality fusion module),用于在频域中挖掘 RGB 图像与深度图之间的相关性。同时,渐进融合模块(progressive-fusion module) 和 成分引导模块(ingredient-guided module) 结合成分信息,挖掘食材与营养成分之间的潜在关系,从而强化营养评估学习的指导能力。
我们在 Nutrition5k 数据集上进行了多种消融实验,结果表明该方法在所有实验设置中均优于当前最先进的方法,具有显著的性能提升。
食品领域涵盖农业科学、食品科学、营养学等多个学科。营养敏感型农业(Nutrition-sensitive agriculture)[1] 作为一种新兴的农业模式,鼓励农业研究人员更加关注食物的营养品质。食品是多种营养成分的复杂组合,包括热量、脂肪、蛋白质和碳水化合物等宏量营养素 [2]。食物不仅是人类生存的必需品,更是维持健康的重要因素 [3]。分析食物中的营养成分 [4] 并量化其营养价值,有助于人们做出更科学的饮食选择 [5]。合理平衡的饮食结构不仅能满足身体所需的营养,还能缓解如心血管疾病等慢性病。因此,理解和评估食物的营养价值对于疾病预防和将复杂的营养需求简化为可操作的饮食指南具有重要意义。
已有大量研究表明,营养评估广泛应用于个性化饮食管理 [6]、智能食谱推荐 [7]、食物识别与成熟度评估 [8][9][10]、食品安全 [11] 等多个领域。
过去几十年间,各类营养评估方法不断涌现,用于评估食物的营养价值,例如食物频率问卷、24 小时回忆法 [12] 和营养评估类应用 [13]。这些方法主要依赖人工记录或回忆个体的日常饮食摄入量来计算营养值,不仅耗时费力,而且对人工输入的依赖使得评估的可靠性和准确性较低。
另一种常见的营养评估方式是生化分析法,该方法利用化学仪器在实验室中对食物样本进行营养成分检测。虽然生化分析具有很高的准确性,但受限于专业营养评估人员稀缺等问题,难以在现实生活中广泛应用 [14]。
近年来,人工智能(AI)特别是机器学习与深度学习技术的快速发展,正在革新传统食品科学研究方法 [15][16]。随着计算机视觉相关技术的蓬勃发展,基于视觉的营养评估逐渐成为提供实时饮食反馈的重要工具,有助于推动健康饮食习惯和整体健康水平的提升。例如,基于深度学习的视觉评估方法 [17][18][19] 已在实验中展现出显著效果,显示出在食品评估领域的巨大潜力。
早期的视觉评估方法主要依赖 RGB 图像。然而,RGB 图像极易受到如光照变化等外部因素影响 [20],显著影响评估的准确性。此外,仅靠 RGB 图像进行精确评估十分困难,因为食品本身具有高度复杂性和类间相似性 [21]。为了解决这些问题,一些研究 [14][22] 引入了深度图(Depth Map)作为 RGB 图像的补充,用于营养估算。深度图通过 RGB-D 相机测量摄像头与食物表面的距离 [19],能够提供三维结构与空间几何信息,有效弥补 RGB 图像的局限。然而,目前大多数方法仅采用简单的融合策略,未能充分发挥两种模态的优势。
此外,现有视觉方法在识别食物表面的微小成分(如油脂和糖分)方面仍存在困难,而这些成分恰恰是判断食材和实现精确营养评估的关键。
为了解决上述问题,本文提出了一种 成分引导的 RGB-D 融合网络(Ingredient-Guided RGB-D Fusion Network),该方法融合了 RGB 图像、深度图和食材成分信息,以实现更加可靠的营养评估。具体而言,我们引入了一个 多频双模态融合模块(multi-frequency bimodality fusion module),利用小波变换提取深度图中的空间几何信息和 RGB 图像中的颜色纹理信息。此外,我们还设计了 渐进融合模块(progressive-fusion module) 和 成分引导模块(ingredient-guided module),在成分信息引导下融合多尺度特征,挖掘食材与营养成分之间的潜在关联,从而增强模型在营养评估任务中的学习能力和鲁棒性。
我们的主要贡献总结如下:
- 提出一种基于小波变换的 RGB 与深度图融合方法,有效整合两种模态的信息,克服了单一 RGB 图像存在的评估局限。
- 设计了渐进融合模块与成分引导模块,借助成分信息探索食材与营养之间的潜在关系,进一步提升营养评估的准确性。
- 在 Nutrition5k 数据集上开展广泛实验,结果表明本文方法在多个评价指标上优于现有先进方法。例如,碳水化合物的平均绝对百分比误差(PMAE)从 22.4% 降至 19.3%,蛋白质从 21.0% 降至 17.6%,验证了该方法在融合 RGB、深度图和成分信息方面的有效性。
二、相关工作
传统上,营养评估领域主要依赖观察性研究和临床试验。然而,人工智能的出现彻底革新了这一方法 [23]。本节中,我们将探讨当前 AI 在营养评估中的应用现状,特别是关注基于视觉的营养评估方法。这些技术通过计算机视觉对食物图像进行营养含量估计,为个人提供一种快速、自动获取饮食营养信息的方式 [24]。现有基于视觉的方法 [25] 大致可以分为基于 RGB 图像的方法和基于 RGB-D 图像的方法 [18]。
A. 基于 RGB 图像的方法
早期的视觉方法主要致力于提升 RGB 图像在食物视觉表示方面的有效性。例如,NR 等人 [26] 使用卷积神经网络(CNN)从食物图像中提取特征,并据此估计营养值。Ege 等人 [27] 提出了一种基于 CNN 的多类别食物热量估计方法,该方法通过单一网络同时完成食物检测与热量估计,实现了快速推理和轻量级模型。Fang 等人 [28] 提出了一种端到端的营养评估方法,利用生成对抗网络(GAN)进行像素到像素的能量密度图映射,从而估算热量值。Thames 等人 [19] 使用 Inception-V2 [29] 进行多任务学习,输出五种营养成分的估计值,其预测误差显著低于营养师。
除了 CNNs 之外,Shao 等人 [30] 利用 Transformer 捕捉图像中的远程依赖关系,并融合多尺度特征信息以提升预测精度。Wang 等人 [31] 提出了一种从粗到细的范式,并引入结构线性平滑损失函数,通过优化图像的搜索空间提高营养评估性能。Jiao 等人 [32] 提出了多专家线性整流混合机制,在多任务监督下有效缓解模型微调时的冲突,该方法在营养评估任务中表现出优越性能。
然而,这些方法依赖于 RGB 图像,易受到光照、拍摄角度等外部环境因素的影响。此外,食物图像中亮度对比度较低时,也会影响评估的准确性。
B. 基于 RGB-D 图像的方法
为了进一步增强食物图像的特征表示,研究者们开始将 RGB 图像与深度信息结合起来进行营养评估。例如,Myers 等人 [13] 首先通过 RGB 图像识别食物类型,再通过三维深度图信息获取食物体素(Voxel),将其与塑料食物体积数据库进行匹配,最终基于 USDA 国家营养数据库(NNDB)计算热量值。
Lu 等人 [33] 提出了一套系统,结合 RGB 图像与深度图进行营养估计,通过上下文信息进行食物分割,并融合少样本学习分类器与三维表面重建算法实现自动营养估计。Javadi 等人 [34] 开发了一种基于无服务器边缘计算的智能营养监测系统,使用 Mask RCNN 对食物进行分类与分割,再通过深度图估算体积,最终基于食物成分计算营养信息。
Thames 等人 [19] 将食物图像与深度图作为 CNN 网络的四通道输入进行特征提取,预测热量、蛋白质、脂肪和碳水化合物等营养成分。类似地,Shao 等人 [14] 提出 RGB-D Net 网络,融合多尺度与多模态特征提取方法,有效提升细粒度营养评估的性能。Vinod 等人 [35] 使用条件生成网络生成能量密度图,并结合深度图特征进行热量预测。DPF-Nutrition 方法 [22] 引入了深度图预测模块以生成深度图,并采用注意力机制进行 RGB-D 融合,提升营养评估的准确性。Kwan 等人 [36] 基于 Transformer 提出了一种融合方法,采用多头自注意力机制(Multi-head Self Attention)整合低层特征,同时在最终尺度使用基于滑动窗口的多头自注意力机制进一步增强特征融合,从而有效提升模型的预测性能。
这些 RGB-D 方法表明,融合深度信息确实能有效增强营养评估性能。然而,现有方法大多采用简单的融合策略,亟需更先进、更精细化的融合方法来进一步提升效果。
III. 材料与方法
A. 数据集
为了验证我们的方法,我们在公开数据集 Nutrition5k [19] 上进行了评估。Nutrition5k 包含来自多个类别的 5000 道菜品,涵盖了超过 250 种食材类型。每道菜都包括详细的成分信息和营养信息。此外,该数据集还包含 3500 张 RGB-D 图像和从 360° 视角采集的单视角图像,顶部的 RGB 和深度图像由 Intel RealSense D435 采集。
图 1 展示了 Nutrition5k 中的示例图像:第一列为深度图像,颜色越蓝表示距离传感器越近,越红则表示越远;第二列为 RGB 图像;第三列为食材信息及其对应的营养成分。
B. 方法
本节我们首先介绍我们提出的网络的整体框架,然后对各个模块进行详细描述。
1)整体框架
如图 2 所示,我们的网络由四个主要模块组成:
- 多频双模态融合模块(Multifrequency Bimodality Fusion Module):融合 RGB 和深度图像的低层特征;
- CLIP 融合模块(CLIP Fusion Module):利用预训练 CLIP 图像编码器增强高层语义信息;
- 成分引导融合模块(Ingredient-Guided Fusion Module):融合多尺度特征,并使用食材信息作为辅助指导;
- 渐进式融合模块(Progressive-Fusion Module):逐步融合不同尺度的特征。
输入为 RGB 图像 X r g b ∈ R H × W × 3 X_{rgb} ∈ R^{H×W×3} Xrgb∈RH×W×3 和深度图像 X d e p t h ∈ R H × W × 3 X_{depth} ∈ R^{H×W×3} Xdepth∈RH×W×3,我们使用一个不对称的双分支骨干网络来提取初始特征。每个分支为四阶段层级结构,通道数每层翻倍,分辨率减半,从而扩大感受野。得到四个不同尺度的 RGB 特征 F r g b = { F r g b i } , i = 1..4 F_{rgb} = \{F^i_{rgb}\}, i=1..4 Frgb={Frgbi},i=1..4 和深度特征 F d e p t h = { F d e p t h i } , i = 1..4 F_{depth} = \{F^i_{depth}\}, i=1..4 Fdepth={Fdepthi},i=1..4。
这些低层特征首先通过多频双模态融合模块生成融合特征,同时高层特征通过 CLIP 进一步增强。渐进融合模块集成不同层级特征,成分引导模块使用食材信息进一步优化学习过程。最终通过多任务学习预测五种营养成分含量。
2)多频双模态融合模块
如图 3 所示,为整合 RGB 和深度信息,我们设计了多频双模态融合模块。
- 首先,对 RGB 特征 F r g b i F^i_{rgb} Frgbi( i = 1 , 2 i=1,2 i=1,2)做 1 × 1 1×1 1×1 卷积,通道数对齐至与 F d e p t h i F^i_{depth} Fdepthi 相同。
- 接着对 RGB 和深度特征分别做离散小波变换(DWT),得到低频(结构)和高频(纹理)信息:
R
L
L
,
R
L
H
,
R
H
L
,
R
H
H
=
D
W
T
(
F
r
g
b
i
)
R_{LL}, R_{LH}, R_{HL}, R_{HH} = DWT(F^i_{rgb})
RLL,RLH,RHL,RHH=DWT(Frgbi)
D
L
L
,
D
L
H
,
D
H
L
,
D
H
H
=
D
W
T
(
F
d
e
p
t
h
i
)
D_{LL}, D_{LH}, D_{HL}, D_{HH} = DWT(F^i_{depth})
DLL,DLH,DHL,DHH=DWT(Fdepthi)
为避免深度图高频信息中存在的噪声,我们仅保留其低频分量
D
L
L
D_{LL}
DLL,而 RGB 图保留其全部高频信息
R
H
=
R
L
H
,
R
H
L
,
R
H
H
R_H = {R_{LH}, R_{HL}, R_{HH}}
RH=RLH,RHL,RHH。融合后的低频特征如下:
R
D
L
L
=
C
B
R
(
R
L
L
)
+
C
B
R
(
D
L
L
)
RD_{LL} = CBR(R_{LL}) + CBR(D_{LL})
RDLL=CBR(RLL)+CBR(DLL)
最后通过逆小波变换恢复图像空间特征:
F
d
w
t
=
I
D
W
T
(
R
D
L
L
,
R
H
)
F_{dwt} = IDWT(RD_{LL}, R_H)
Fdwt=IDWT(RDLL,RH)
对 F d w t F_{dwt} Fdwt 做 3 × 3 3×3 3×3 卷积以增强表达能力,并与原始深度特征连接。
3) CLIP 融合模块
在渐进融合之前,我们使用预训练的 CLIP 图像编码器提取 RGB 图像的局部高层特征,并与 Transformer 骨干网络提取的全局特征融合:
c
l
i
p
S
3
,
c
l
i
p
S
4
=
C
L
I
P
i
m
a
g
e
(
X
r
g
b
)
F
3
=
c
l
i
p
S
3
+
F
3
f
u
s
e
F
4
=
c
l
i
p
S
4
+
F
4
f
u
s
e
clipS3, clipS4 = CLIP_{image}(X_{rgb}) F_3 = clipS3 + F^{fuse}_3 F_4 = clipS4 + F^{fuse}_4
clipS3,clipS4=CLIPimage(Xrgb)F3=clipS3+F3fuseF4=clipS4+F4fuse
CLIP 的参数在训练中保持冻结。
4)渐进式融合模块
如图 2 所示,渐进式融合模块逐层融合不同尺度的 RGB-D 特征以增强特征表达能力。使用 AFPN(渐近特征金字塔)融合多尺度特征;为统一特征尺寸,使用上采样与下采样技术;使用横向连接(lateral connections)增强原始信息;使用自适应空间特征融合模块(ASF)计算权重,优化融合特征;最终将融合结果展开为一维向量,与食材信息连接用于后续预测。
5)成分引导模块
本模块首次引入食材信息以辅助营养估计学习。首先将食材信息编码为 255 维二值向量(有为 1,无为 0);使用两个全连接层生成注意力权重,通过 softmax 与 RGB-D 特征相乘突出重要区域;然后将注意后的特征与原始食材特征拼接,形成最终特征表示:
F
i
n
g
r
=
M
L
P
2
(
M
L
P
1
(
i
n
g
r
e
d
i
e
n
t
)
)
F_{ingr} = MLP2(MLP1(ingredient))
Fingr=MLP2(MLP1(ingredient))
F
i
n
t
e
r
=
s
o
f
t
m
a
x
(
F
i
n
g
r
)
∗
F
r
g
b
d
+
F
r
g
b
d
F_{inter} = softmax(F_{ingr}) * F_{rgbd} + F_{rgbd}
Finter=softmax(Fingr)∗Frgbd+Frgbd
F
o
u
t
=
C
a
t
[
s
o
f
t
m
a
x
(
F
i
n
g
r
)
∗
F
i
n
t
e
r
+
F
i
n
t
e
r
,
F
i
n
g
r
]
F_{out} = Cat[softmax(F_{ingr}) * F_{inter} + F_{inter}, F_{ingr}]
Fout=Cat[softmax(Fingr)∗Finter+Finter,Fingr]
C. 训练目标(Loss)
我们预测五类营养成分:热量、质量、脂肪、蛋白质和碳水。使用多任务损失函数,同时规范各项损失的量纲:
L
=
l
c
a
l
+
l
c
a
r
b
+
l
p
r
o
+
l
f
a
t
+
l
m
a
s
s
L = l_{cal} + l_{carb} + l_{pro} + l_{fat} + l_{mass}
L=lcal+lcarb+lpro+lfat+lmass
l
c
a
l
=
Σ
i
∣
y
i
−
y
ˉ
i
∣
/
Σ
i
y
i
l_{cal} = Σ_i |y_i - ȳ_i| / Σ_i y_i
lcal=Σi∣yi−yˉi∣/Σiyi
其他子任务(质量、蛋白质、脂肪、碳水)使用相同公式。
D. 评估指标
我们采用平均绝对误差百分比(PMAE)作为评估指标:
M
A
E
=
(
1
/
N
)
Σ
i
∣
y
i
−
y
ˉ
i
∣
MAE = (1/N) Σ_i |y_i - ȳ_i|
MAE=(1/N)Σi∣yi−yˉi∣
P
M
A
E
=
M
A
E
/
(
(
1
/
N
)
Σ
i
y
i
)
PMAE = MAE / ((1/N) Σ_i y_i)
PMAE=MAE/((1/N)Σiyi)
其中 y i y_i yi 为真实值, y ˉ i ȳ_i yˉi 为预测值, N N N 为样本数。PMAE 越低表示预测越准确。
IV. 实验与结果
A. 实验设置
1)实现细节
我们在 Nutrition5k [19] 数据集中选取了 3500 张 RGB-D 图像进行评估,数据按 5:1 的比例划分为训练集和测试集。模型在配备 NVIDIA GTX 3090 GPU 的工作站上实现。骨干网络预训练于 ImageNet 数据集,输入图像统一裁剪为 384×384。
为了增强训练的鲁棒性,我们对 RGB-D 训练图像使用了同步翻转的数据增强。优化器采用 Adam,初始学习率为 1 × 1 0 − 5 1×10^{-5} 1×10−5,并以指数衰减(衰减率为 0.99)方式动态下降。总共训练 150 个 epoch,batch size 为 8。
2)非对称双分支骨干网络
我们采用非对称双分支结构从 RGB-D 图像中提取多尺度特征。RGB 图像包含丰富的颜色与纹理信息,在视觉营养评估中至关重要。考虑到 Transformer 在建模长距离依赖方面具有优势,且在 Swin-Nutrition [30] 中表现出色,我们使用 Swin-Transformer 作为 RGB 图像的特征提取网络。
深度图则使用 ConvNeXt 网络作为骨干,提取其几何与三维空间信息。
B. 主要结果
我们将提出的方法与 Nutrition5k 数据集上多个最先进方法进行了比较。对比方法包括:
- 单 RGB 图像方法:Google-Nutrition-rgb [19]、Portion-Nutrition [39]、Swin-Nutrition [30]、DPF-Nutrition [22];
- RGB-D 融合方法:RGB-D Net [14]、Domain Adaptation-Nutrition [35];
- 其他 RGB-D 融合网络,如 CMX [40]、CDINet [42] 等。
表 I 展示了与这些方法的对比评估结果。
1)与单 RGB 图像方法对比
从表 I 可观察到,我们的方法在所有指标上均取得了显著的性能提升。例如,与最好的 RGB 方法 DPF-Nutrition 相比,我们的脂肪和蛋白质的平均绝对误差百分比(PMAE)分别降低了 3.4% 和 2.6%。
这说明我们有效地利用了多模态数据,融合了更丰富的信息,超越了仅依赖单 RGB 图像的方法。
2)与 RGB-D 融合方法对比
我们的方法在营养估计任务中的表现明显优于现有的 RGB-D 融合方法。与 Google-Nutrition-rgbd [19] 和 RGB-D Net [14] 相比,PMAE 分别提升了 4.2% 和 2.6%。此外,在如 CMX [40] 和 CDINet [42] 等任务中我们也表现更佳,进一步验证了本方法的优越性。
C. 消融实验
本节评估我们提出方法中多个关键模块对性能的贡献。包括:
- 非对称双分支骨干网络;
- 渐进式融合模块;
- 多频双模态融合模块;
- CLIP 融合模块;
- 成分引导模块。
结果如表 II 与表 III 所示。
1)非对称双分支骨干网络有效性
我们尝试四种配置以设计更优的双分支架构:
- RGB 和深度图都用 Swin(swin-swin);
- 都用 ConvNeXt(convnext-convnext);
- RGB 用 ConvNeXt,深度图用 Swin(convnext-swin);
- RGB 用 Swin,深度图用 ConvNeXt(swin-convnext)。
结果表明,第 4 种 swin-convnext 组合表现最佳,因此选为默认配置。
我们还将骨干替换为 resnet50、resnet101 以及三种轻量网络(shufflenet、mobilenet、mobilevit)进行对比。结果表明,swin-convnext 在处理多模态特征上更具优势,轻量网络虽在效率上有优势,但特征表达能力较弱。
2)渐进式融合模块有效性
我们将渐进式融合模块加入非对称双分支后,五个任务指标全面提升,证明该模块中多尺度融合与尺度权重机制有助于提升特征表达能力(见表 III)。
3)多频双模态融合模块有效性
本模块在频域中融合 RGB 与深度图特征,保留 RGB 的高频纹理与深度图的低频结构。与主流融合方法(如拼接、加法、平均、最大值、最小值)对比(表 V),我们的融合方式在五类营养预测上总体效果最佳。
4)CLIP 融合模块有效性
我们认为局部特征对营养估计至关重要。CLIP 提供的局部特征弥补了 Transformer 所提全局特征的不足(表 III 显示该融合显著提升表现)。
5)成分引导模块有效性
我们对成分引导模块设计了两种策略:简单拼接与多层注意力机制。
- 表 IV 显示,采用注意力机制显著降低五种营养预测的误差;
- 我们还评估了不同注意力层数的影响。发现使用两层注意力时整体表现最佳,三层在某些指标略下降,四层则整体下降,因此最终采用两层结构。
D. 复杂性与效率分析
在计算复杂度方面,我们将模型与基线方法以及不同骨干网络版本的我们模型进行比较,指标包括参数量(Params)、浮点运算量(FLOPs)和平均 PMAE。
从表 VI 可以看出,我们的模型在计算效率上并不高,因为其骨干网络 Swin Transformer 包含了大量参数。这一点也反映在表 VII 中,其中 FLOPs 和 Params 的高值主要来自骨干网络(标记为 Baseline),而其余模块对这些值的增长贡献较小。
尽管我们的模型在计算上并不高效,但在五种营养素预测的平均 PMAE 值上,在所有方法中表现最佳。
为了更清晰地展示模型细节,我们在表 VIII 中列出了各主要模块的具体参数信息。
E. 可视化分析
我们在图 4 中直观地展示了我们方法和其他 RGB-D 融合方法的预测值与真实值的相关性。
其中 x 轴表示真实营养值,y 轴表示预测值,彩色点表示测试集中所有样本。通常来说,预测点越接近绿色线(理想对角线),说明预测结果越准确。
在所有五种营养素任务中,我们的预测值明显更贴近真实值,尤其体现在整体准确性上,突显了所提出方法的有效性。
此外,我们还通过 grad-cam [47] 对最后一层卷积特征生成热力图,以可视化模型关注区域。
如图 5 所示,第一列为原始菜品图像,其余列为不同营养评估任务下的热力图。
图 6 则展示了样例菜品所对应的营养细节。
例如,在菜品 Dish_1560442303 中,我们的模型在评估热量和脂肪时主要关注培根和炒蛋区域;而在评估碳水化合物时,则集中于浆果和藜麦区域。这表明我们的模型能够抓住关键食材信息,从而实现更有效的营养评估。
V. 讨论
自动化营养评估提供了一种快速、准确且无创的营养获取方式,显著提升了人们的生活方式和健康水平。
虽然我们的方法在性能上优于现有多种方法,但仍存在一些局限性:
-
脂肪预测误差较高:我们的脂肪预测 PMAE 高于 Google-Nutrition-rgb,可能是因为存在异常值(如图 4 所示)。为此,我们未来将探索更有效的融合模型,更好地整合食材信息。
-
应对密集食物场景存在挑战:在存在大量堆叠或遮挡的食物场景中,我们的模型可能表现欠佳,这是视觉方法的常见问题。而公开数据集中这类场景较少,也限制了模型在此类情形下的学习能力。
-
数据集局限于西餐:目前公开数据主要为西式菜肴,尚未验证我们模型在中餐等其他饮食文化中的通用性。
VI. 结论
本文提出了一种新颖的 成分引导型 RGB-D 融合网络,将 RGB 图像、深度图与食材信息有效结合,用于营养评估。
其中:
- 多频双模态融合模块 利用深度图提供的几何结构信息,弥补 RGB 图像的不足;
- 成分引导融合模块 通过多尺度特征融合,并借助食材信息引导特征学习,增强语义表达能力。
在 Nutrition5k 数据集上的实验表明,我们的方法在多个指标上优于当前主流方法。
未来,我们计划进一步引入多种传感器,从食品图像中获取多源信息用于营养评估,并研究多源信息与营养评估之间的有效关联,以实现更精确的结果。
🌟 在这篇博文的旅程中,感谢您的陪伴与阅读。如果内容对您有所启发或帮助,请不要吝啬您的点赞 👍🏻,这是对我最大的鼓励和支持。
📚 本人虽致力于提供准确且深入的技术分享,但学识有限,难免会有疏漏之处。如有不足或错误,恳请各位业界同仁在评论区留下宝贵意见,您的批评指正是我不断进步的动力!😄😄😄
💖💖💖 如果您发现这篇博文对您的研究或工作有所裨益,请不吝点赞、收藏,或分享给更多需要的朋友,让知识的力量传播得更远。
🔥🔥🔥 “Stay Hungry, Stay Foolish” —— 求知的道路永无止境,让我们保持渴望与初心,面对挑战,勇往直前。无论前路多么漫长,只要我们坚持不懈,终将抵达目的地。🌙🌙🌙
👋🏻 在此,我也邀请您加入我的技术交流社区,共同探讨、学习和成长。让我们携手并进,共创辉煌!