当前位置: 首页 > news >正文

碎片笔记|生成模型原理解读:AutoEncoder、GAN 与扩散模型图像生成机制

前言:本篇博客简要介绍不同生成模型架构的图像生成原理,主要包括AutoEncoder、GAN 和 Diffusion Models 三类。

目录

  • AutoEocoder(自编码器)
    • VAE(Variational Autoencoder,变分自编码器)
  • GAN(Generative Adversarial Network,生成对抗网络)
  • Diffusion Model(扩散模型)
    • Latent Diffusion Model(LDM,潜空间扩散模型)

在这里插入图片描述


AutoEocoder(自编码器)

AutoEncoder主要用于图像重建任务,是典型的Encoder-Decoder架构。

生成原理:图像 xxx 首先经由 Encoder 编码成 latentlatentlatent,然后latentlatentlatent送入Decoder得到重建图像。

VAE(Variational Autoencoder,变分自编码器)

VAE是AutoEncoder的变体,旨在提升AutoEncoder的图像生成能力,因此对于训练完毕的VAE,可以直接使用其Decoder生成图像。

生成原理:随机生成噪声向量 latentlatentlatent 送入Decoder即可生成图像。

在这里插入图片描述


GAN(Generative Adversarial Network,生成对抗网络)

GAN(Generative Adversarial Network,生成对抗网络)是一种生成模型,由 生成器(Generator) 和 判别器(Discriminator) 构成,生成器负责生成图像,判别器负责区分真图像与生成图像。训练过程中,判别器对生成图像与真实图像进行判别,生成器根据判别结果不断优化,从而生成逼真的图像。两者通过对抗训练提升生成效果。

生成原理:随机生成噪声向量 latentlatentlatent(通常服从标准正态分布)作为输入送入生成器,生成器输出图像。
在这里插入图片描述


Diffusion Model(扩散模型)

Diffusion Model(扩散模型)是一种基于逐步去噪生成图像的概率模型,通过学习数据分布的反向扩散过程来生成图像。

生成原理:首先从标准正态噪声图像开始,经过训练好的去噪网络(通常是 U-Net 结构)逐步迭代去噪,最终得到高质量图像。生成过程可以视作“从纯噪声到图像”的逐步逆扩散过程。

Latent Diffusion Model(LDM,潜空间扩散模型)

LDM 是 Diffusion Model 的一种变体,将扩散过程放在 潜在空间(latent space) 而非原始像素空间,从而大幅降低计算开销,同时保持生成图像质量。

训练过程:原始图像先通过 AutoEncoder 的 Encoder 映射到潜在向量空间,然后在潜在空间中进行逐步扩散/去噪训练,学习潜在向量的分布。有些训练会将重建的潜向量通过 Decoder 映射回图像空间,计算像素级重建损失,但核心训练是潜在空间去噪。

生成原理:生成图像时,先在潜在空间中选取随机噪声向量开始迭代去噪,得到潜在向量(和随机噪声的维度相同),再通过 Decoder 映射回像素空间得到最终图像。

特点:相比像素空间扩散,LDM 计算更高效,同时可以更容易地结合文本、图像等条件生成图像。

在这里插入图片描述

根据生成任务的类型,DM 提供两种不同的输入方式:

模式输入随机噪声条件EncoderDecoder
Text-to-Image文本 prompt文本
Image-to-Image参考图像 (+可选文本)√(加在潜向量上)图像 / 文本
http://www.dtcms.com/a/430984.html

相关文章:

  • 中文粤语(广州)语音语料库:6219条高质量语音数据助力粤语语音识别与自然语言处理研究
  • Kubernetes HTTPS迁移:Ingress到GatewayAPI实战
  • [Power BI] 矩阵表
  • 陕西省建设厅网站劳保统筹基金网站建设合同需要注意什么
  • 【多线程】——基础篇
  • 多语言网站 自助洛阳兼职网站
  • 【C++实战(61)】C++ 并发编程实战:解锁线程池的奥秘与实现
  • 外贸网站做开关行业的哪个好做网站用什么配置笔记本
  • 极路由 极1s J1S hc5661 刷入OpenWRT并设置同网段子路由
  • 帮传销组织做网站wordpress换域名安装
  • ubuntu 24.04 从 6.8 内核升级 6.11 网卡加载失败问题
  • 如何让网站gzipwordpress 站长
  • SQL——子查询
  • dw做的网站怎么传到网络上去腾度网站建设
  • [创业之路-643]:互联网与移动互联网行业与通信行业的关系
  • Easyx使用(下篇)
  • css`font-variant-numeric: tabular-nums` 用来控制数字的样式。
  • CentOS7二进制安装包方式部署K8S集群之ETCD集群部署
  • Python常用三方模块——Pillow
  • 友情下载网站外贸cms建站
  • 976. 三角形的最大周长
  • 该怎么跟程序员谈做网站自己怎么免费做网站
  • 基于岗位需求的康体项目策划与设计实训室规划
  • 大理做网站哪家好大概多少钱
  • Nest 中使用Swagger自动化API文档生成
  • 融合:迈向 “一台计算机” 的终极架构
  • ai手诊面诊抖音快手微信小程序看广告流量主开源
  • 网页设计制作手机网站网站做了301怎么查看跳转前网站
  • 安卓基础组件018--第三方Image库
  • 25.60 秒计时器,仅使用 HTML 和 CSS | CSS SVG 动画