当前位置: 首页 > news >正文

论文阅读 2025-8-3 [FaceXformer, RadGPT , Uni-CoT]

最近ICCV 2025很多工作都release了,赶紧跟一波热度了解一下大家在做什么

1. FaceXFormer: A Unified Transformer for Facial Analysis

这篇论文的主要创新点在于设计了新的网络结构,使得模型能够在9个face analysis相关的task上得到比较好的结果。

网络结构设计上的创新:

在这里插入图片描述

(1) 多尺度编码器

这个部分就是左侧的4个clock,金字塔一样的结构,明显使用CNN来构建,假设就是普通Unet吧,论文没说。

作者认为多尺度的信息有帮助“例如,年龄估计需要全局表示,而面部解析则需要细粒度表示。”

然后MLP-Fusion就是参考了SegFormer网络结构的设计, 从多尺度特征 {Si}n i=1 生成融合的面部表示。

(2)FaceX Decoder

参考了DeTr的工作,为每一个任务设计了任务Token,然后设计了FaceX Decoder,来完成后面的不同任务,这一步只是将face token 和 task token 进行交叉注意力机制来进行更深层次的特征交互,后续这里得到的高纬度特征还是需要经过不同的任务头。

(3)任务头,不同任务采用不同的任务头部网络:

  • 关键点检测任务使用沙漏网络(hourglass network)
  • 头部姿态估计任务使用回归MLP
  • 年龄、性别、种族、表情、可见性以及属性预测任务则使用分类MLP

对于面部解析任务,我们利用输出F̂,先通过上采样层进行处理,然后与面部解析token进行叉乘操作,从而获得分割图。不同任务使用的token数量如下:

  • 分割任务:token数量对应总类别数 (估计还是使用Unet的结构反向解码)
  • 关键点预测:68个token(对应68个面部关键点)
  • 头部姿态估计:9个token(表示3×3旋转矩阵)
  • 其他任务:每个任务使用1个token

但是说实话,其实这个FaceXformer也就是把一些任务做细了。跟 Faceptor 相比,也就是多了 头部姿态估计(Head Pose Estimation)面部可见性(Face Visibility) 分析这两个任务。

然后他的loss损失就是每一个任务的loss加权加起来,具体加权看代码。

2. RadGPT & AbdomenAtlas 3.0

这是一个放射学腹部CT的数据集和大模型的工作。

提出了一个1200+患者的一个CT数据集,然后训练了一个GPT来生成报告。

3. Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

这篇好像是基于Bagel做的,但是Bagel是近期的5月的模型,所以也是很新的工作。

因为视觉思考很费token,所以作者设计了一个马尔科夫链的一个决策推理模型。

在这里插入图片描述
作者的分析和观察以及解决方法如下:
在这里插入图片描述
具体来说,模型的思考过程有4个stage,其中subtask可以有很多个,然后每一个状态节点可以被考虑成之前的所有文本+当前的图像(不知道是不是所有图像都输入,不然token也太多了吧,看了一下好像只有原始的图像以及当前的edit image):
在这里插入图片描述
这个是他设计的马尔科夫链的流程:

具体状态转移明显就是让bagel来生成下一步的图片以及summary,然后再给他一个奖励。

这个明显很不好做,因为不像GRPO一样很快地给出奖励(如果累积到最后面,那么梯度都要爆炸了,或者显存都要爆炸了)。
在这里插入图片描述

http://www.dtcms.com/a/323369.html

相关文章:

  • 数论——约数之和、快速乘
  • 新手入门:Git 初次配置与 Gitee 仓库操作全指南 —— 从环境搭建到代码推送一步到位
  • 【unitrix数间混合计算】2.9 小数部分特征(t_non_zero_bin_frac.rs)
  • Java基础-完成局域网内沟通软件的开发
  • day 16 stm32 IIC
  • day 35_2025-08-09
  • 202506 电子学会青少年等级考试机器人四级器人理论真题
  • Java -- 日期类-第一代-第二代-第三代日期
  • 05.【数据结构-C语言】栈(先进后出,栈的实现:进栈、出栈、获取栈顶元素,栈实现代码,括号匹配问题)
  • 分布式事务Seata TCC模式篇
  • 【代码篇】关于PartiallyPassword插件_实现文章加密
  • 不同类型模型的样本组织形式
  • 机器翻译:FastText算法详解与Python的完整实现
  • Java-线程线程的创建方式
  • 十九、MySQL-DQL-基本查询
  • 校招秋招春招实习快手在线测评快手测评题库|测评解析和攻略|题库分享
  • 【unitrix数间混合计算】2.10 小数部分特征(bin_frac.rs)
  • 【和春笋一起学C++】(三十三)名称空间的其他特性
  • 小米开源大模型 MiDashengLM-7B:不仅是“听懂”,更能“理解”声音
  • B.10.01.5-电商系统的设计模式应用实战
  • 制作浏览器CEFSharp133+X86+win7 之 javascript交互(二)
  • Javaweb - 14.1 - 前端工程化
  • 从依赖外部提示的显式思维链(CoT),到内部自洽的内化推理(Internalized Reasoning)
  • ConcurrentHashMap源码详解
  • 虚拟手机号工具使用
  • 年轻新标杆!东方心绣脸韧带年轻技术升级发布
  • 基于大语言模型的智能问答系统研究
  • 谷歌官方性能文档:Android 动态性能框架优化Performance Hint API
  • Go 实用指南:如何执行 Skyline 查询(Pareto 最优点筛选)
  • [激光原理与应用-201]:光学器件 - 增益晶体 - 概述