当前位置: 首页 > wzjs >正文

微信公众号配置 网站建设asp模板网站修改

微信公众号配置 网站建设,asp模板网站修改,建工之家,珠海市网站建设品牌One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt 文生图模型很难支持故事叙述中一致的身份保留要求。(要么通过训练,要么通过修改模型结构).本文利用语言模型的语境一致性,即通过单…
One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt

alt text

文生图模型很难支持故事叙述中一致的身份保留要求。(要么通过训练,要么通过修改模型结构).本文利用语言模型的语境一致性,即通过单一提示的语境来理解身份。这种方法将所有提示连接作为一个整体作为T2I模型的单个输入,同时采用两种技术来改进生成过程:奇异值重加权和身份保持交叉注意。

什么是语言模型的语境一致性?

在长提示符中,身份信息是通过上下文理解隐式维护的,我们称之为语言模型的上下文一致性。
例如:A dog is watching the movie. Afterward, the dog is lying in the garden.(我们可以知道在这一段话中,这只狗代表的是同一只狗,因为在同一段话出现)

这里有个实验说明:单提示生成设置下,文本嵌入空间中彼此之间的语义距离相对较小,而跨多提示生成设置的文本嵌入空间彼此之间的语义距离相对较大。

主体提示符 P0 = “A watercolor of a cute kitten”
5个子提示符 P(1~5) = "in a garden, “dressed in a superhero cape”, “wearing a collar with a bell”, “sitting in a basket”, “dressed in a cute sweater”

作者比较了不同设置下的文本编码在文本嵌入空间中:

  • 多提示生成的设置下,即 Ci = TextEncoder(P0,Pi)
  • 单提示设置下,即 C = TextEncoder(P0,P1,P2,…,PN)

作者这里用 t-SNE 做了 2D 的可视化,可以看到即在单提示设置下,Pi的语义距离相对较小。
alt text

如何利用朴素的重加权方法(NPR)来实现图像空间中的上下文一致性?

alt text

Naive Prompt Reweighting (NPR):即使用连接起来的总提示符作为输入,生成第i个场景,就通过一个放大因子重新加权对应于所需场景的提示嵌入,同时通过一个缩小因子重新缩放其他场景提示的嵌入。

缺点: T2I模型虽然综合了具有相同主体身份的帧图像。然而,背景在这些帧之间混合,

(一)1prompt1story: Singular-Value Reweighting 奇异值重加权

TextEncoder(P0, P1, . . . , PN) = [cSOT , cP0 , cP1 , . . . , cPN , cEOT ]

X e x p = [ c P j , c E O T ] X^{exp} = [c^{Pj} , c^{EOT} ] Xexp=[cPj,cEOT]
X s u p = [ c P 1 , . . . , c P j − 1 , c P j + 1 , . . . , c E O T ] X^{sup} = [c^{P1} ,... ,c^{P_{j-1}},c^{P_{j+1}},...,c^{EOT} ] Xsup=[cP1,...,cPj1,cPj+1,...,cEOT]

作者根据生成是否所需,将Pi分为两个部分:一个部分是需要表现出来的标识为P_sup,另一个部分是需要被抑制的为P_sup。

同时除了提示符本身包含的语意外,[EOT] 也包含很重要的语义信息.

详细过程如下:

  • SVR+
    alt text

  • SVR-
    alt text

在求解得到奇异值后,作者用 β , α \beta,\alpha β,α 来调整奇异值的大小(抑制则为负,需要表达的则为负)

(一)1prompt1story: Identity-Preserving Cross-Attention 身份保留交叉注意

这里做法比较简单,在某个时间t,通过奇异值分解得到新的text embedding后,会通过交叉注意来注入语义信息。(文本信息作为K和V)

前面我们知道,提示符的构成是(P0,P1,…,PN),P0是主题提示符,P1,…,PN是其他动作、场景描述符号。作者把 Pi 对应的K矩阵的部分设置为0,然后再将他与原来的 K concat起来,作为新的K。(V矩阵同理)

感觉这个操作初始看可能比较极端,所以作者将他concat起来,避免语义信息上的过分损失。因为在前面的express和suppress的操作,会影响单个提示内的上下文一致性,导致生成的图像在身份上的相似性略有降低。

实验
  • 消融实验

alt text

alt text


文章转载自:

http://SWKckc1p.bmqLs.cn
http://H0SCfbqc.bmqLs.cn
http://DA2w8xZB.bmqLs.cn
http://O8Obwem1.bmqLs.cn
http://BAPLfcqU.bmqLs.cn
http://J9POqJHj.bmqLs.cn
http://zwYXDFaw.bmqLs.cn
http://oEAiINh1.bmqLs.cn
http://w8Zn2q9E.bmqLs.cn
http://kqmlP6Nl.bmqLs.cn
http://OztL9wg7.bmqLs.cn
http://Qz3pxD60.bmqLs.cn
http://CChT2N9x.bmqLs.cn
http://xLGbBuFL.bmqLs.cn
http://IVnOMZZD.bmqLs.cn
http://d3iAeWlR.bmqLs.cn
http://4DKl4FSX.bmqLs.cn
http://8Lrelt8w.bmqLs.cn
http://qfOddSTY.bmqLs.cn
http://rKAlG4YK.bmqLs.cn
http://ykPusLwq.bmqLs.cn
http://URIzZn4v.bmqLs.cn
http://w3mJaRSg.bmqLs.cn
http://UwOgTj6K.bmqLs.cn
http://stnl42oC.bmqLs.cn
http://Y1vogE0N.bmqLs.cn
http://EmFRTEnc.bmqLs.cn
http://teQ45lln.bmqLs.cn
http://3t9RCczT.bmqLs.cn
http://K6MJWzwd.bmqLs.cn
http://www.dtcms.com/wzjs/663325.html

相关文章:

  • 网站建设和优化北京网站营销与推广
  • 怎么建立网站赚钱陕西建设集团韩城公司网站
  • 南阳微信网站yw77731域名查询
  • 洛阳网站公司网站后台查找软件
  • 福州仓前网站建设泰安seo推广
  • 做门图网站wordpress 0day漏洞
  • 如何给网站做宣传代网站建设
  • 建设部职业资格注册网站项目设计方案模板
  • 温州网站建设团队通州富阳网站建设
  • 杭州做网站的网络公司有哪些WordPress徽章系统
  • 东莞网站优化排名公司同一个ip网站太多 seo
  • 网站建设理论知识海口网络公司
  • 淘宝客做软件网站app长沙网站设计多少钱一个月
  • 福州公司网站建设惠山网站建设
  • 网站代理 登陆签名图片在线制作
  • wordpress 维护中关键词如何优化排名
  • 魔站网站开发北京h5网页设计
  • 建设银行官方网站企业网站蓝色模板下载
  • 木马科技网站建设游戏代理是怎么赚钱的如何代理游戏
  • 医院网站建设合同竞价托管一般要多少钱
  • 网站建设怎么在图片上加字出入西安最新通知今天
  • 做静态页面的网站云服务器多网站解析
  • 网站ui 特点宣传片制作公司保定
  • 溧阳 招网站开发兼职成立公司需要具备什么条件
  • 建设银行网站怎样查询贷款信息吗免费做简历的网站
  • 做网站都要学什么做网站多少钱赚钱吗
  • 做网站优化有什么好处完整网站开发
  • 动力网站农村网站建设的意义
  • 谷歌seo 外贸建站怎么做教育类型的网站
  • 百度网站广告怎么做网站优化建设绵阳