影像生成评估指标FID
一、FID 介绍
FID 是 Fréchet Inception Distance 的缩写,中文常称 “弗雷歇・因 ception 距离”,核心是衡量生成影像与真实影像的分布相似度,数值越低代表生成效果越贴近真实数据。
关键原理
用预训练的 Inception-v3 网络提取影像的高维特征(聚焦语义和全局结构)。
假设两组特征都服从多元高斯分布,分别计算各自的均值和协方差矩阵。
计算两个高斯分布之间的 Fréchet 距离,该距离即为 FID 值。
二、计算过程
数据准备:明确两组数据 —— 真实影像集(如 ImageNet 真实图片)和生成影像集(如 GAN 生成的图片),两组数据需保持相同分辨率、通道数(如均为 256×256 彩色图)。
特征提取:用预训练的 Inception-v3 网络(去掉最后一层分类层),分别对两组影像提取高维特征向量(通常是 2048 维),聚焦影像的全局结构和语义信息(如 “是否有猫的轮廓”“色彩分布是否自然”)。
分布拟合:假设两组特征向量都服从 多元高斯分布,分别计算:
真实特征的均值向量(μ_real)和协方差矩阵(Σ_real)
生成特征的均值向量(μ_gen)和协方差矩阵(Σ_gen)
计算 Fréchet 距离:代入公式计算两个高斯分布的距离,结果即为 FID 值:FID = ||μ_real - μ_gen||² + Tr (Σ_real + Σ_gen - 2√(Σ_realΣ_gen))(||・||² 是欧氏距离的平方,Tr 是矩阵的迹,即对角线元素之和)

三、数值与标准
FID 值越小,代表真实与生成影像的分布越接近,生成效果越好。
优秀生成模型(如成熟扩散模型):FID < 10(贴近真实数据)
良好模型:10 < FID < 30(结构和语义基本一致)
一般模型:30 < FID < 50(存在明显差异,如结构扭曲、色彩怪异)
较差模型:FID > 50(生成内容与真实数据偏差极大)
生成影像集至少需要 1000 张图片,否则协方差矩阵估计不准,FID 值会失真
