当前位置: 首页 > news >正文

视觉风格提示词:Visual Style Prompting with Swapping Self-Attention(风格迁移)

文章目录

  • 一、项目介绍
  • 二、方法介绍
    • 2.1自注意力层进行KV注入
    • 2.2对unet不同层的自注意层进行探究
    • 2.3定量测量来选择最佳交换自注意力的范围
  • 三、总结

一、项目介绍

本文的工作是做风格迁移的
本文证明了在风格迁移时,与其他使用交叉注意块的方法相比,使用自我注意块是一种更好的策略。
在不断发展的文本到图像生成领域,扩散模型已成为内容创建的强大工具。
尽管现有的模型能力非凡,但在实现风格一致的可控生成方面仍面临挑战,需要进行高成本的微调,或者由于内容泄漏而经常无法等效地传输视觉元素。
为了应对这些挑战,我们提出了一种新颖的方法–视觉风格提示,以生成各种图像,同时保持特定的风格元素和细微差别。
在去噪过程中,我们保留原始特征的查询,同时在后期的自我关注层中,将关键字和值与参考特征的关键字和值互换。这种方法可以在不进行任何微调的情况下进行视觉风格提示,确保生成的图像保持忠实的风格。通过对各种风格和文本提示的广泛评估,我们的方法显示出优于现有方法的优势,能最好地反映参考文献的风格,并确保生成的图像与文本提示最准确地匹配。
项目地址
在这里插入图片描述

二、方法介绍

以往的训练方法侧重于文本提示,会在训练阶段过拟合于图像文本对
自注意力层的结kv具有空间维度的信息,对比文本跟能展示空间视觉要素

2.1自注意力层进行KV注入

本文采用在自注意力层,用参考图像生成的KV替换原始的KV从而实现风格迁移
在这里插入图片描述

2.2对unet不同层的自注意层进行探究

发现只在最后的上采样块做自注意力交换,更能实现风格的迁移而不泄露图像的风格
在这里插入图片描述

与早期上行块相比,晚期上行块能更好地关注语义对应的区域,从而有更多的自由空间来重新组装小部件。而早期的上行块会关注更大的区域,导致内容泄漏。

下图是对两个点进行查询
在这里插入图片描述
下图提供多个查询点在相应查询区域上的平均注意力图。在上行块后期,生成图像的查询点区域与参考图像的相同风格区域相对应。另一方面,在上行块早期,查询点区域不仅与相应的样式区域相匹配,还与更宽的区域相匹配
在这里插入图片描述

2.3定量测量来选择最佳交换自注意力的范围

由于最近的大型 T2I DM 由许多区块组成,因此我们通过改变交换的起始点和固定交换的终点来进一步分析其行为。
我们使用了四个关键指标:
(a) 与参考图片的风格相似度,(b) 与文本提示的对齐度,© 内容多样性。,以及 (d) 参考图像的内容泄漏。
如下图所示,在一个点上,所有四个指标都发生了突变(红线)。我们选择这一点作为最佳起点,以平衡各方面的权衡。
在这里插入图片描述

三、总结

在本文中,我们介绍了利用交换自我注意进行视觉风格提示的方法,这种方法能有效地提示参考图像的风格,而不会以一种免训练的方式泄露内容。
本文证明了,与其他使用交叉注意块的方法相比,使用自我注意块是一种更好的策略。
此外,我们还提供了一种通过定量测量来选择最佳交换自我注意力范围的原则性方法。最后,视觉风格提示在质量和数量上都优于现有方法。
由于视觉风格提示受限于预先训练的扩散模型的能力,因此无法同步放大模型无法生成的图像,生成图像的质量取决于模型的性能。
此外,由于我们的方法对参考图像的风格有很强的依从性,因此当文本中提供了两种风格时,它往往会忽略文本中指定的风格。

相关文章:

  • Dubbo(24)如何配置Dubbo的监控中心?
  • 深度学习之卷积
  • 【零基础入门unity游戏开发——2D篇】2D物理系统 —— 2DEffector效应器
  • Rust 所有权与引用
  • 要创建一个基于Spring Boot、Thymeleaf、MyBatis Plus和MySQL的简单表格增删改查(CRUD)项目
  • RabbitMQ--延迟队列事务消息分发
  • 全面守护关键基础设施!Fortinet OT 安全平台功能与服务再扩展
  • Level DB --- TableCache
  • 【Elasticsearch入门到落地】10、初始化RestClient
  • springcloud 整合 Redis_Redisson
  • transformers中学习率warmup策略具体如何设置
  • ElementUI元件库——提升Axure原型设计效率与质量
  • 传统神经网络、CNN与RNN
  • R-GCN-Modeling Relational Data with GraphConvolutional Networks(论文笔记)
  • 【第30节】MFC编程:ListCtrl控件和TreeCtrl控件
  • 如何使用腾讯云HAI快速、高质量生成Stable Diffusion图片
  • 容器C++ ——STL常用容器
  • Flask(五)表单处理与验证
  • 浅析车规芯片软错误防护加固的重要性
  • (常识)C++中的模板(函数模板、类模板)——参数传递方式?继承与模板?分文件编写?
  • 重庆秀山网站建设价格/seo是什么职业岗位
  • wordpress 去掉发布者/温州seo排名公司
  • 适合用dedecms做的网站/百度的相关搜索
  • 做招聘网站客户要发票怎么办/seo网站推广优化论文
  • 海外网购网站/seo工具不包括
  • 西宁网站建设的公司哪家好/百度指数移动版app