当前位置: 首页 > wzjs >正文

建设历史文化旅游宣传网站wordpress网页移动端

建设历史文化旅游宣传网站,wordpress网页移动端,企业服务中心工作内容,刮奖网站目录 1 前言2 基础概念2.1 Latent space2.2 AutoEncoder2.3 VAE2.4 扩散模型2.5 多模态交叉注意力 3 Stable Diffusion原理4 整体框架4.1 文生图4.2 图生图4.3 修复 1 前言 Stable diffusion是一个基于 Latent Diffusion Models(潜在扩散模型,LDMs&…

目录

  • 1 前言
  • 2 基础概念
    • 2.1 Latent space
    • 2.2 AutoEncoder
    • 2.3 VAE
    • 2.4 扩散模型
    • 2.5 多模态交叉注意力
  • 3 Stable Diffusion原理
  • 4 整体框架
    • 4.1 文生图
    • 4.2 图生图
    • 4.3 修复

1 前言

Stable diffusion是一个基于 Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,得益于 Stability AI 的计算资源支持和在 LAION-5B 的一个子集数据支持训练,用于文图生成。

Latent Diffusion Models 通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片。目前,Stable Diffusion发布了v3.5版本,v1版是Latent Diffusion Models的一个具体实现,模型架构设置:自动编码器下采样因子为8,UNet大小为860M,文本编码器为CLIP ViT-L/14。

论文:High-Resolution Image Synthesis with Latent Diffusion Models。

2 基础概念

2.1 Latent space

隐空间(Latent space)是压缩数据的一个表示,数据压缩的目的是学习数据中较重要的信息。以编码器-解码器网络为例,首先使用全卷积神经网(FCN)络学习图片特征,我们将特征提取中对数据的降维看作一种有损压缩。由于解码器需要重建(reconstruct)数据,模型必须学习如何储存所有相关信息并且忽略噪音,压缩(降维)的好处在于可以去掉多余的信息从而关注于最关键的特征。

2.2 AutoEncoder

详细介绍参考博文:【AIGC系列】1:自编码器(AutoEncoder, AE)。

2.3 VAE

AutoEncoder存在的问题是:对于图像数据,decoder 还原数据可以看做是一个生成器,由于 decoder 输入数据z属于R空间,输入z的分布无法被固定住,所以大部分生成的图片是无意义的。

对此,我们可以使用变分自编码器(Variational AutoEncoder, VAE)来解决这个问题。给定输入解码器的z一个分布可以解决上述问题,假设一个服从标准多元高斯分布的多维随机变量的数据集X,根据已知分布采样得到的zi,来训练decoder神经网络,从而得到多元高斯分布的均值和方差,从而成功得到一个逼近真实分布p(X)的p’(X)。

流程如下:

流程

2.4 扩散模型

详细介绍参考博文:《【AIGC系列】2:DALL·E 2模型介绍(内含扩散模型介绍)》 第2节的内容。

2.5 多模态交叉注意力

在 Unet 中间层引入cross attention,加入多模态的条件(文本,类别,layout,mask),实现如下,其中Q来自latent space,K,V来自文本等另一序列。
交叉注意力

公式如下:

公式

3 Stable Diffusion原理

SD的模型总览如下图所示:

模型总览

公式符号说明:

公式符号说明

训练过程:

  • 使用预训练的CLIP模型,对需要训练的图像数据生成对应的描述词语。

  • 使用预训练的通用VAE,先用Encoder,将输入图片降维到 latent space(通常降采样倍数4-16)。

  • 将latent space输入diffusion model,进行扩散(正向采样),一步步生成噪声(在这个过程中,通过权重 β 控制每步生成噪声的强度,直到生成纯噪声,并记录每步生成噪声的数据,作为GT。

  • 利用cross attention 将 latent space的特征与另一模态序列的特征融合,并添加到diffusion model的逆向过程,通过Unet逆向预测每一步需要减少的噪音,通过GT噪音与预测噪音的损失函数计算梯度。

Denoising Unet的结构如下: (图片来源:https://zhuanlan.zhihu.com/p/642354007)

U-Net

  1. ResnetBlock

ResnetBlock 接受两个输入:latent 向量经过卷积变换后和经过全连接投影的 timestep_embedding 做加和,再和经过 skip connection 的原始 latent 向量做加和,送入另一个卷积层,得到经 Resnet 编码变换后的 latent 输出。

  1. Spatial Transformer(Cross Attention)

Spatial Transformer 同样接受两个输入:经过上一个网络模块(一般为 ResnetBlock)处理和变换后的 latent 向量(对应的是是图片 token),及对应的 context embedding(文本 prompt 经过 CLIP 编码后的输出), cross attention 之后,得到变换后的 latent 向量(通过注意力机制,将 token 对应的语义信息注入到模型认为应该影响的图片 patch 中)。 Spatial Transformer 输出的 shape 和输入一致,但在对应的位置上融合了语义信息。

  1. DownSample/UpSample

DownSample 将 latent 向量的前两个轴的大小缩减 50%,而 UpSample 将 latent 向量的前两个轴的大小增大一倍。DownSample 使用一个步长为 2 的二维卷积来实现,同时将输入 latent 向量的 channel 数变化成输出 latent 向量的 channel 数;而 UpSample 使用插值算法来实现,在插值之后进行一个步长为 1 的卷积,同时通过一个步长为 1 的二维卷积来将输入 latent 向量的 channel 数变化成输出 latent 向量的 channel 数。

需要注意的是,在整个 UNET 执行一次的过程中,timestep_embedding 和 content embedding 始终保持不变。而在 UNET 反复执行多次的过程中,timestep_embedding 每次都会发生变化,而 content embedding 始终保持不变。在迭代过程中,每次 UNET 输出的 noise_slice 都与原来 latent 向量相减,作为下次迭代时,UNET 的 Latent 输入。

前向过程:

  1. 用文本编码器( CLIP 的 ViT-L/14 ),将用户输入的 Prompt 文本转化成 text embedding。
  2. 根据假定分布(一般是多元高斯分布),生成一张纯噪音图像。
  3. 利用VAE encoder 压缩到latent space。
  4. 执行Denoising Unet,利用cross attention融合多模态信息,并预测每一步需要减去的噪音。
  5. 利用VAE decoder还原到同一分布下的原图大小。

4 整体框架

4.1 文生图

ti

4.2 图生图

ii

4.3 修复

ip


文章转载自:

http://BN2Vdvzr.qxLjc.cn
http://cYNwCTa3.qxLjc.cn
http://mkpmJbSD.qxLjc.cn
http://3DzJul6r.qxLjc.cn
http://jIzHSQrB.qxLjc.cn
http://4NqCEOoA.qxLjc.cn
http://Y7TiTvCm.qxLjc.cn
http://vNw8jiNV.qxLjc.cn
http://SNoFNoqI.qxLjc.cn
http://UhYA02k0.qxLjc.cn
http://9jRAOiDH.qxLjc.cn
http://Cu94HxnZ.qxLjc.cn
http://2zSlwvew.qxLjc.cn
http://ypchsQsL.qxLjc.cn
http://xVmDninQ.qxLjc.cn
http://0ha3tStl.qxLjc.cn
http://tIYub4KQ.qxLjc.cn
http://hzjpXokf.qxLjc.cn
http://nsGLDkG6.qxLjc.cn
http://QMWie4TF.qxLjc.cn
http://SG1Jwoa7.qxLjc.cn
http://QtQpWUrt.qxLjc.cn
http://vhP3Wlal.qxLjc.cn
http://YvKOXt68.qxLjc.cn
http://pjbPxlBp.qxLjc.cn
http://tIuqetVC.qxLjc.cn
http://3wKDpCrx.qxLjc.cn
http://CdC2gzi6.qxLjc.cn
http://EYEsqClr.qxLjc.cn
http://x6LXls8D.qxLjc.cn
http://www.dtcms.com/wzjs/750466.html

相关文章:

  • 给人做ppt的网站安徽网站建设公司
  • 曲阳县做网站做视频网站违法
  • 建设银行网站银行登录国外优秀的网站
  • 网站中留言板怎么做装修平台app有哪些
  • 台州做鞋子网站道可道在线设计平台
  • 中国网站建设市场分析报告wordpress 注册
  • 长沙市旅游景点欧美seo查询
  • 做冻品海鲜比较大的网站有哪些域名打不开网站
  • 哪家外贸网站做的好wordpress最新版本下载
  • 网站建设免费建站文字头像在线制作
  • 青海省建设厅查询网站网站ip被屏蔽怎么办
  • 网站怎么搬家到快云vps里面去啊wordpress播放视频
  • 一般网站的跳出率做网站怎么建站点
  • 东莞网站设计找哪里医疗器械三证是哪三证
  • 多媒体网站开发实战贵阳网上注册公司流程
  • 山西品牌网站建设如何找外贸网站建设公司
  • 辖网站建设 网站设计手机网站模板代码
  • 婚庆公司网站设计互联网定制产品网站
  • 新手学做网站需要注意的几点用phpmysql做网站
  • 网站版面的图文是怎么做的网上医疗和医院网站建设制作
  • 模板网站和定制网站有什么区别天津网站建设公
  • 为什么要做个人网站网店美工需要学什么软件
  • 长宁企业网站建设手机会员卡管理系统
  • 拼多多cms网站怎么做海口注册公司流程及费用
  • 毕设做网站网站制作网站建设案例
  • 吉安做网站的公司广告设计专业烧钱吗
  • 著名网站设计师百度6大核心部门
  • 网站建设合同附件明细网站如何做中英文双语言版本
  • 宝安各大网站制作比较好的疏肝益阳胶囊有哪些功效与作用
  • 江西专业的企业网站建设公司 最新版地址在线