[特殊字符] 突破小样本瓶颈:DataDream——用Stable Diffusion生成高质量分类数据集
目录
- 🌟 核心创新
- 📊 性能碾压
- 🧠 核心方法
- 🔬 实验结果分析
- 1. 生成质量对比
- 2. 分布对齐量化
- ⚙️ 环境部署与复现步骤
- 1. SD模型预下载
- 2. 数据准备
- 3. DataDream微调sd模型
- 4. 生成数据
🌟 核心创新
DataDream提出了一种小样本引导的合成数据生成框架,通过微调Stable Diffusion模型解决传统方法的两大痛点:
1️⃣ 语义歧义:如“clothes iron”被错误生成“金属铁块”(FakeIt方法)
2️⃣ 细节缺失:如飞机螺旋桨缺失(DISEF方法)
真实数据:
生成数据:
📊 性能碾压
根据试验结果,在Stanford Cars数据集上,纯合成数据训练(92.2%) ≈ 合成+真实数据(92.4%)
🧠 核心方法
技术突破点:
-
动态提示:统一使用 “a photo of a [CLS]” 避免噪声
-
双模式适配:
-
DataDreamₛₑₜ:适合类间相似度高数据集(如飞机/汽车)
-
DataDreamₗₛ:适合类间差异大场景(如Caltech101)
-
-
无保护损失:摒弃DreamBooth的保留损失,专注分布对齐(Appendix D验证)
🔬 实验结果分析
1. 生成质量对比
图 1:合成图像对比。之前的训练数据合成方法有时会因类别名称的模糊性而误解(FakeIt [ 38] 将熨斗与金属铁混淆),或未能捕捉到细粒度特征(DISEF [ 9] 生成的图像中 DHC-3-800 飞机机翼前方的螺旋桨缺失,红色圆圈标示了螺旋桨)。而实验方法准确生成了目标类别的图像,并捕捉到了细粒度细节。
图 2:与 FGVC 飞机数据集 Spitfire 类别中 SOTA 的 16 张样本图像相比,随着样本数量增加的定性结果。顶部的真实少量样本图像用于生成底部的合成图像。实验组始终使用一组固定的 16 个样本,即 1 张样本图像是 16 张样本图像的子集,以确保在样本数量