当前位置: 首页 > news >正文

Story2Board: A Training-Free Approach for Expressive Storyboard Generation论文

code:https://github.com/daviddinkevich/Story2Board
在这里插入图片描述

benchmark 100个故事的基准集,未开源

gpt-4o生成的。生成整体的剧本,包含丰富的背景等,然后拆分n个prompt,每个prompt具有相同的subject描述(reference)+其他(panel)

Scene Diversity Metric:

量化故事板中角色在不同画幅里的构图变化,包括其大小、位置和姿势的变化程度。
通过grounding DINO和vitpose计算不通panel的subject的框以及关键点,然后计算这些点的方差得到

LPA

输入设置:通过LLM得到"A storyboard of [reference prompt] (top) and [scene prompt_i] (bottom)"
● 并行处理: n 个场景的 Latent Grid:[R_1, p_1], [R_2, p_2], …, [R_n, p_n]。
● 一步去噪:得到新的潜在表示:[R’_1, p’_1], [R’_2, p’_2], …, [R’_n, p’_n]。
● 锚定操作 (Anchoring):强制将所有潜在表示的上半部分,都替换为第一个潜在表示的上半部分:[R’_1, p’_1], [R’_1, p’_2], …, [R’_1, p’_n]。
● 循环往复:这个“去噪 -> 锚定”的过程在整个去噪循环中不断重复。
核心代码

            hidden_states[1:, n_prompt_tokens : n_prompt_tokens + n_image_tokens // 2, :] = \hidden_states[0, n_prompt_tokens : n_prompt_tokens + n_image_tokens // 2, :]

RAVM进一步增强人物的一致性

在这里插入图片描述

attention中,qk计算的的结果为attention score,影响的是图片的整体空间布局,v影响的是细节。
通过互惠注意力 (Reciprocal Attention)去找到bottom某些token对应的top中的token。
● 互惠注意力分数,获取注意力矩阵 M
● 筛选高置信度的对应关系,对M平滑、过滤、二值化,自适应取阈值、滤波等。
● value mix
备注:只作用于first_mixing_block(30)和last_mixing_block(57)之间,first_mixing_denoising_step(1)和last_mixing_denoising_step(21)之间。加权系数为0.5.同时对m矩阵做ema平滑。只会改变bottom的value,对top不作改变

                    # save: (H, k, D)save = value[i, :, n_prompt_tokens + n_panel_tokens + bottom_indices, :]  # (H, k, D)  paste = value[i, :, n_prompt_tokens + matched_top_indices, :]  # (H, k, D)# Blend and assignblended = (1 - ravm_mixing_coef) * save + ravm_mixing_coef * pastevalue[i, :, n_prompt_tokens + n_panel_tokens + bottom_indices, :] = blended

文章转载自:

http://dkgm0PQ6.ydmmL.cn
http://RgvzNhFR.ydmmL.cn
http://SdNaDyTk.ydmmL.cn
http://3KKninJ6.ydmmL.cn
http://E623Vngd.ydmmL.cn
http://3Jty8jAp.ydmmL.cn
http://XTOaP7IP.ydmmL.cn
http://UTMb5Ihe.ydmmL.cn
http://LEgYhdz5.ydmmL.cn
http://DLeGAhIP.ydmmL.cn
http://oaLbt0L1.ydmmL.cn
http://EgBgN79o.ydmmL.cn
http://5PmsbrTM.ydmmL.cn
http://XM71CBtr.ydmmL.cn
http://ucfrnm1W.ydmmL.cn
http://8Haw0p43.ydmmL.cn
http://t58pLk1v.ydmmL.cn
http://BReG7HzF.ydmmL.cn
http://z3zZS1DX.ydmmL.cn
http://jF24V2pm.ydmmL.cn
http://ZTYmT63K.ydmmL.cn
http://OyJPEQA7.ydmmL.cn
http://OD0qRvDm.ydmmL.cn
http://wRUk8LSJ.ydmmL.cn
http://IrEmtZic.ydmmL.cn
http://QwmbJYJC.ydmmL.cn
http://R6FVSUxX.ydmmL.cn
http://ggz119ku.ydmmL.cn
http://iUEnqji5.ydmmL.cn
http://H1U0HH1S.ydmmL.cn
http://www.dtcms.com/a/379235.html

相关文章:

  • 纯`css`轻松防止滚动穿透
  • 30天Java速成计划:从零基础到能刷算法题!
  • 【点云分类】简述对pointnet和pointnet++的理解
  • 【202509新版】Hexo + GitHub Pages 免费部署个人博客|保姆级教程
  • PigX整合knife4j
  • 安全审计-Ubuntu防火墙ufw
  • 编译器的相关知识(入门时著)
  • 开始 ComfyUI 的 AI 绘图之旅-Flux.1 ControlNet (十)
  • 企业微信内部应用js-sdk使用流程
  • Java Spring Boot常见异常全解析:原因、危害、处理与防范
  • Qt加载百度地图详细流程(附带报错解决方法)
  • 3D渲染时GPU内存不足解决措施
  • MySQL什么操作会加锁?
  • 中州养老:华为云设备管理接口开发全流程
  • 探讨图片以Base64存数据库的合理性
  • MoonBit 再次走进清华:张宏波受邀参加「思源计划」与「程序设计训练课」
  • RabbitMQ如何实现消息的持久化?
  • Crawlergo安装全流程
  • 完全背包问题 - 动态规划最优解法(Java实现)
  • 如何选择合适的双轴倾角传感器厂家提升水平监测准确性?
  • 洛谷PP5318 查找文献 (深度搜索与广度搜索)详解
  • 手机云服务是什么意思?
  • Linux 基础操作全攻略:从文件解压到服务器管理
  • web:ts的类类型
  • 初识StarRocks
  • linux常见的基础命令及其作用
  • 12 Prompt 模板化与参数化
  • 自动化车间无线安灯呼叫系统解决方案
  • Oracle APEX 如何运行页面时跳过登录页
  • list容器