当前位置：首页 > news >正文

论文阅读 2025-8-3 [FaceXformer, RadGPT , Uni-CoT]

news 2025/10/2 16:41:28

最近ICCV 2025很多工作都release了，赶紧跟一波热度了解一下大家在做什么

1. FaceXFormer: A Unified Transformer for Facial Analysis

这篇论文的主要创新点在于设计了新的网络结构，使得模型能够在9个face analysis相关的task上得到比较好的结果。

网络结构设计上的创新：

在这里插入图片描述

（1）多尺度编码器

这个部分就是左侧的4个clock，金字塔一样的结构，明显使用CNN来构建，假设就是普通Unet吧，论文没说。

作者认为多尺度的信息有帮助“例如，年龄估计需要全局表示，而面部解析则需要细粒度表示。”

然后MLP-Fusion就是参考了SegFormer网络结构的设计，从多尺度特征 {Si}n i=1 生成融合的面部表示。

（2）FaceX Decoder

参考了DeTr的工作，为每一个任务设计了任务Token，然后设计了FaceX Decoder，来完成后面的不同任务，这一步只是将face token 和 task token 进行交叉注意力机制来进行更深层次的特征交互，后续这里得到的高纬度特征还是需要经过不同的任务头。

（3）任务头，不同任务采用不同的任务头部网络：

关键点检测任务使用沙漏网络(hourglass network)
头部姿态估计任务使用回归MLP
年龄、性别、种族、表情、可见性以及属性预测任务则使用分类MLP

对于面部解析任务，我们利用输出F̂，先通过上采样层进行处理，然后与面部解析token进行叉乘操作，从而获得分割图。不同任务使用的token数量如下：

分割任务：token数量对应总类别数（估计还是使用Unet的结构反向解码）
关键点预测：68个token（对应68个面部关键点）
头部姿态估计：9个token（表示3×3旋转矩阵）
其他任务：每个任务使用1个token

但是说实话，其实这个FaceXformer也就是把一些任务做细了。跟 Faceptor 相比，也就是多了 头部姿态估计(Head Pose Estimation) 和 面部可见性(Face Visibility) 分析这两个任务。

然后他的loss损失就是每一个任务的loss加权加起来，具体加权看代码。

2. RadGPT & AbdomenAtlas 3.0

这是一个放射学腹部CT的数据集和大模型的工作。

提出了一个1200+患者的一个CT数据集，然后训练了一个GPT来生成报告。

3. Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

这篇好像是基于Bagel做的，但是Bagel是近期的5月的模型，所以也是很新的工作。

因为视觉思考很费token，所以作者设计了一个马尔科夫链的一个决策推理模型。

在这里插入图片描述
作者的分析和观察以及解决方法如下：

具体来说，模型的思考过程有4个stage，其中subtask可以有很多个，然后每一个状态节点可以被考虑成之前的所有文本+当前的图像（不知道是不是所有图像都输入，不然token也太多了吧，看了一下好像只有原始的图像以及当前的edit image）：
在这里插入图片描述
这个是他设计的马尔科夫链的流程：