当前位置: 首页 > wzjs >正文

哪些网站做简历合适韶山seo快速排名

哪些网站做简历合适,韶山seo快速排名,产品外包装设计网站,公司网站优化要怎么做TesserAct 论文 采用RGB-DN(RGB深度法线) 作为 4D 场景中间表示,由此建模 4D 场景,比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成,优化速度快,收敛好,且首次从当前帧和文本描述…

TesserAct 论文
采用RGB-DN(RGB+深度+法线) 作为 4D 场景中间表示,由此建模 4D 场景,比纯 2D 视频更准确地建模 3D 几何结构。相比现有的 4D 视频生成,优化速度快,收敛好,且首次从当前帧和文本描述的具身智能体动作直接预测4D场景。
建模分布为 p ( v , d , n ∣ v 0 , d 0 , n 0 , T ) p(v,d,n|v^0,d^0,n^0,T) p(v,d,nv0,d0,n0,T) 其中 v, d, n 表示预测的未来 RGB、深度图和法线图的潜在序列, v 0 v^0 v0 d 0 d^0 d0 n 0 n^0 n0 是 RGB 图像、深度和法线图的潜在表示以及具身智能体的文本动作。
q ( z t ∣ z t − 1 ) = N ( z t ; α t z t − 1 , ( 1 − α t ) I ) p θ ( x t − 1 ∣ x t , x 0 , T ) = N ( x t − 1 ; μ θ ( x t , t , x 0 , T ) , Σ θ ( x t , t ) ) \begin{aligned}q(\mathbf{z}_t|\mathbf{z}_{t-1})=\mathcal{N}\left(\mathbf{z}_t;\sqrt{\alpha_t}\mathbf{z}_{t-1},(1-\alpha_t)\mathbf{I}\right)\\p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t,\mathbf{x}^0,\mathcal{T})=\mathcal{N}\left(\mathbf{x}_{t-1};\mu_\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T}),\Sigma_\theta(\mathbf{x}_t,t)\right)\end{aligned} q(ztzt1)=N(zt;αt zt1,(1αt)I)pθ(xt1xt,x0,T)=N(xt1;μθ(xt,t,x0,T),Σθ(xt,t))
通过法线积分优化深度:
在第 i 帧的 2D 图像坐标系中,像素位置 u = ( u , v ) T ∈ V i u =(u,v)^T\in\boldsymbol{V}^i u=(u,v)TVi,其对应的深度标量、法向量为 d ∈ D i , n = ( n x , n y , n z ) ∈ N 2 d\in D^i, \quad n=(n_x,n_y,n_z)\in N^2 dDi,n=(nx,ny,nz)N2。在焦距为 f,主点为 ( c u , c v ) T (c_u,c_v)^T (cu,cv)T 的透视相机假设下,对数深度 d ~ = l o g ( d ) \tilde{d}=log(d) d~=log(d) 应满足一下方程: n ~ z ∂ v d ~ + n x = 0 \tilde{n}_z\partial_v\tilde{d}+n_x=0 n~zvd~+nx=0 n ~ z ∂ v d ~ + n y = 0 \tilde{n}_z\partial_v\tilde{d}+n_y=0 n~zvd~+ny=0,其中 n ~ = n x ( u − c x ) + n y ( v − c y ) + n z f \tilde{n}=n_x(u-c_x)+n_y(v-c_y)+n_zf n~=nx(ucx)+ny(vcy)+nzf。由此得到:
min ⁡ d ∬ Ω ( n ~ z ∂ u d ~ + n x ) 2 + ( n ~ z ∂ u d ~ + n y ) 2 d u d v . \min_d\iint_\Omega(\tilde{n}_z\partial_u\tilde{d}+n_x)^2+(\tilde{n}_z\partial_u\tilde{d}+n_y)^2\mathrm{d}u\mathrm{d}v. dminΩ(n~zud~+nx)2+(n~zud~+ny)2dudv.
转化为迭代预测得到:
d ~ t + 1 = arg ⁡ min ⁡ d ~ ( A d ~ − b ) T W ( d ~ t ) ( A d ~ − b ) = ⁡ d e f arg ⁡ min ⁡ D ~ L s ( D ~ , N i ) \tilde{d}_{t+1}=\arg\min_{\tilde{d}}(A\tilde{d}-b)^TW(\tilde{d}_t)(A\tilde{d}-b)\overset{\mathsf{def}}{\operatorname*{=}}\arg\min_{\tilde{\mathcal{D}}}\mathcal{L}_s(\tilde{\mathcal{D}},\mathcal{N}^i) d~t+1=argd~min(Ad~b)TW(d~t)(Ad~b)=defargD~minLs(D~,Ni)
在这里插入图片描述

  • 数据集:从 RLBench 中选择 20 个难度较高的任务,为每个任务从 4 个不同视角生成 1000 个实例,共生成 80k 个合成 4D 具身视频。虽然模拟器提供了度量深度信息,但缺乏表面法线数据,我们使用DSINE中的depth2normal 函数估计法线,并采用场景随机化技术增强泛化性。合成数据的多样性有限,与现实场景存在差距。纳入了现实世界视频数据集,利用 RollingDepth 为其标注仿射不变深度,使用 Temporal-Consistent Marigold-LCM-normal1 标注法线图。我们还选择了 OpenX 中的 Fractal data 和 Bridge 数据集,并纳入了人类 - 物体交互数据集 Something Something V2,以增加指令的多样性。
  • 模型:使用 CogVideoX 中的 3D VAE 分别对 RGB、深度和法线视频进行编码,不额外微调 VAE。输入设计上,为每个模态引入三个单独的投影仪提取嵌入: f z = I n p u t P r o j ( z t , z 0 ) f_z=InputProj(z_t,z_0) fz=InputProj(zt,z0)。DiT 以这些嵌入的和为输入,结合文本输入 T 和去噪步骤 t,得到隐藏状态 h = D i T ( ∑ f z , t , T ) h=DiT(\sum f_z,t,T) h=DiT(fz,t,T)。输出方面,保留原始 RGB 输出方法,同时为深度和法线预测引入额外模块,通过Conv3D层编码输入潜在和预测的RGB去噪输出的连接,与DiT骨干网络产生的隐藏状态结合,经过输出投影仪得到深度和法线的去噪预测。 L = E v 0 , T , t , ϵ [ ∥ [ ϵ v , ϵ d , ϵ n ] − ϵ θ ( x t , t , x 0 , T ) ∥ 2 ] L=\mathbb{E}_{\mathbf{v}_0,\mathcal{T},t,\epsilon}\left[\left\|[\epsilon_\mathbf{v},\epsilon_\mathbf{d},\epsilon_\mathbf{n}]-\epsilon_\theta(\mathbf{x}_t,t,\mathbf{x}^0,\mathcal{T})\right\|^2\right] L=Ev0,T,t,ϵ[ [ϵv,ϵd,ϵn]ϵθ(xt,t,x0,T) 2]
  • 4D 场景重建:输入深度图 D i D_i Di 是归一化的绝对值([0,1]),无法直接用于 3D 重建;之前方法假设固定尺度或预测绝对深度,但重建结果粗糙;采用法线图 N i N_i Ni 通过法线积分优化深度,得到初步深度图 D ^ \hat{D} D^,并加空间一致性损失 c s c_s cs。单纯逐帧优化会导致动态场景的深度抖动,因此引入 光流(Optical Flow) 约束跨帧一致性:
    • 静态/动态区域分割:计算相邻帧光流 F = R A F T ( V ) F=RAFT(V) F=RAFT(V)静态区域掩码 M i s M_i^s Mis—— ∣ ∣ F i ∣ ∣ ≤ c ||F_i||≤c ∣∣Fi∣∣c动态区域掩码 M i d M_i^d Mid——剩余部分, M i s M_i^s Mis 的剩余部分;背景区域掩码 M i b M_i^b Mib——动态掩码与静态掩码的交集;
    • 跨帧传播 D i → ( i − 1 ) ( u , v ) = D i − 1 ( u − Δ u , v − Δ − v ) D_{i→(i-1)}(u,v)=D_{i-1}(u-\Delta u,v-\Delta -v) Di(i1)(u,v)=Di1(uΔu,vΔv)
    • 时间一致性损失:根据光流,可以从先前帧检索当前帧对应位置的深度,以施加一致性约束。强制动态区域和背景区域的深度与前一帧对齐: L c = λ c d ∥ D ~ i ∘ M i d − D i → ( i − 1 ) ∘ M i d ∥ 2 + λ c b ∥ D ~ i ∘ M i b − D i → ( i − 1 ) ∘ M i b ∥ 2 \mathcal{L}_c=\lambda_{cd}\|\tilde{D}_i\circ M_i^d-D_{i\to(i-1)}\circ M_i^d\|^2+\lambda_{cb}\|\tilde{D}_i\circ M_i^b-D_{i\to(i-1)}\circ M_i^b\|^2 Lc=λcdD~iMidDi(i1)Mid2+λcbD~iMibDi(i1)Mib2
    • 深度正则化损失:防止优化后的深度 D ~ i \tilde{D}_i D~i 过度偏离初始预测 D i D_i Di L r = λ r d ∥ D ~ i ∘ M i d − D i ∘ M i d ∥ 2 + λ r b ∥ D ~ i ∘ M i b − D i ∘ M i b ∥ 2 \mathcal{L}_r=\lambda_{rd}\|\tilde{D}_i\circ M_i^d-D_i\circ M_i^d\|^2+\lambda_{rb}\|\tilde{D}_i\circ M_i^b-D_i\circ M_i^b\|^2 Lr=λrdD~iMidDiMid2+λrbD~iMibDiMib2 arg ⁡ min ⁡ D ~ L s ( D ~ , N i ) ⏟ 法线约束 + L c ( D ~ , D ^ i − 1 , F i , F i − 1 ) ⏟ 时间约束 + L r ( D ~ , D i ) ⏟ 正则化 \arg\min_{\tilde{D}}\underbrace{\mathcal{L}_s(\tilde{D},N_i)}_{\text{法线约束}}+\underbrace{\mathcal{L}_c(\tilde{D},\hat{D}_{i-1},F_i,F_{i-1})}_{\text{时间约束}}+\underbrace{\mathcal{L}_r(\tilde{D},D_i)}_{\text{正则化}} argD~min法线约束 Ls(D~,Ni)+时间约束 Lc(D~,D^i1,Fi,Fi1)+正则化 Lr(D~,Di)

实验结果

凭借更好的深度和法线图,方法重建的4D点云在真实和合成数据集上均实现了最低的Chamfer距离。4D Point-E方法在RLBench上的表现优于视频扩散模型,但仍落后于我们的方法。此外,直接使用点云进行训练计算成本高昂,限制了所用的帧数。相比之下,我们的模型利用RGB-DN视频的高效表示生成更精确的4D场景,尤其在捕捉动态场景的细粒度细节方面表现出色。
在这里插入图片描述
在这里插入图片描述

http://www.dtcms.com/wzjs/357066.html

相关文章:

  • 网站设计常识今日国际军事新闻头条
  • 烟台网站制作专业世界疫情最新数据
  • 苏州集团网站制作设计淘宝美工培训
  • 如何取一个大气的名字的做网站制作网站教学
  • 把网站内容全删掉 在重新建立会不会被k网络营销岗位有哪些
  • b2b2c多用户商城网站推广seo设置
  • java做网站6开发网站用什么软件
  • 号号网站开发如何进行网络营销
  • 好的手表网站seo顾问是什么
  • 电商网站 案例怎样制作网页设计
  • 做的好的地方网站棋牌软件制作开发多少钱
  • 西安医院网站建设营销型网站建设推荐
  • 永清建设局网站打开全网搜索
  • 网站规划与设计课程设计公司网站定制
  • 专业轻电商网站建设公司网站设计公司报价
  • 郴州高端网站建设昆明seo博客
  • 我为群众办实事项目清单情感网站seo
  • 最好的开发网站建设价格免费外网加速器
  • 南通网站建设找哪家好互动营销的概念
  • wordpress 大型网站seo的基础是什么
  • wordpress 默认登陆优化关键词排名
  • 网站怎么挂服务器企业营销策划实训报告
  • 浙江省网站建设公司排名关键字
  • seo关键词选择及优化深圳seo排名哪家好
  • 广州信科做网站b2b平台是什么意思
  • 外贸营销网站建设公司网络维护公司
  • 旅游网站策划书范文安卓优化大师下载安装
  • 做健身网站步骤三只松鼠网络营销策划书
  • 个人网站做导购可以吗南通百度seo代理
  • 做图片视频的网站建立网站一般要多少钱