代码讲解系列-CV(六)——视觉生成模型
文章目录
- 一、Diffusers入门
- 1.1 扩散模型
- 1.2 Diffusers——扩散模型工具库
- 1.3 Pipeline
- 二、流水线解构
- 2.1 扩散模型
- 2.2 Scheduler
- 2.3 Model
- 2.4 Stable Diffusion
- 三、训练扩散模型
- 3.1 训练步骤
- 四、微调
- 4.1 IP-Adapter
- 五、作业
一、Diffusers入门
1.1 扩散模型
产品:SD, Midjourney, Sora, Luma
1.2 Diffusers——扩散模型工具库
Guided Diffusion——最早的综合
Stable diffusion——之后
Huggingface: transformers——
Huggingface: diffusers——现在大部分人都使用这个
1.3 Pipeline
huggingface hub -> https://huggingface.co/google/ddpm-cat-256(自动下载需要上网)
二、流水线解构
2.1 扩散模型
2.2 Scheduler
2.3 Model
UNet2DConditionModel
CA就是交叉注意力
2.4 Stable Diffusion
三、训练扩散模型
3.1 训练步骤
- 准备数据集 Dataset
2.定义模型架构 Model - 定义扩散过程 Scheduler
- 损失函数 MSE
- 训练循环 train loop
- 优化器、学习率调度 optimizer/lr
- 验证 evaluate
- 日志、保存 log/save
- 可视化 visualization
四、微调
4.1 IP-Adapter
五、作业
一、基于本课内容,使用
diffusers库调用stable diffusion1.5 完成生成任务,探索不同组件的结构和作用。
二、自主选择一个微调方法(LORA,DREAMBOOTH,IPAdapter)在小数据集上进行尝试。