当前位置：首页 > news >正文

Deep Learning-Based Human Pose Estimation: A Survey【读到2d单人hpe】

news 2025/8/14 8:55:55

Multiple passes[多次通读]

Read the title/abstract/figures

Title

Deep learning-based
Human pose estimation

Abstract

Human pose estimation	Locate the human body parts and build human body representation
A comprehensive review

Figures

Taxonomy of this survey

Single-person 2D HPE frameworks
(a)regression methods(via a deep neural network)
(b)heatmap-based methods(Gaussian kernel)	2D HPE Network?

Illustration of the multi-person 2D HPE frameworks

Top-down	Human detection -> pose estimation
Bottom-up	Pose estimation -> body part association

Single-view single person 3D HPE.

Direct estimation approaches	End to end network(input image to output 3d pose
2d to 3d lifting approached	Leverage the predicted 2d human pose for 3D pose estimation
Human mesh recovery methods	The 3d pose and shape parameters are fed into the model regressor to reconstruct 3D human mesh.

Illustration of the multi-person 3D HPE frameworks

Top-down	Human detection network -> 3d pose network -> aligned to the world coordinate
Bottom-up	All body joints and depth maps -> associate body parts to each person according to the root depth and part relative depth

Table

Datasets for 2D HPE

Comparison of different methods on the MPII dataset for 2D single-person HPE

Comparison of different 2D multi-person HPE methods on the test-dev set of the COCO dataset

Comparison of different 2D video-based HPE methods on the PoseTrack2017/8

Datasets for 3D HPE

Comparison of different 3D single-view single-person HPE approaches

Comparison of different 3D single-view multi-person HPE approaches

Comparison of different 3D multi-view HPE approaches

Intro+conclusions+figures+skim rest(skim related work)

intro

现状

A wide range of applications

Challenges

Occlusion, insufficient training data, and depth ambiguity

2d pose annotation

Easily achievable

单人HPE已经表现很好（using deep learning techniques

1	无监督深度学习模型——locate malicious functions in a binary
2	半监督聚类——classify the identified functions using very few labels obtained from analyst's regular daily workflow

Highly occluded multi-person HPE

3D HPE更难

动捕系统在可控实验环境下可以得到3d pose annotations,但是在野外有限制

对单目RGB视频图片，depth ambiguities是挑战

The multi-view setting，viewpoints association is the key issue.

Not cost-effective and require special-purpose hardware

Depth sensors, inertial measurement units

Provide a clear picture of current research on deep-learning-based 2D and 3D HPE

Track recent advances and summarize their achievements

conclusions

A systematic overview

A comprehensive taxonomy and performance comparison

A few promising future directions to promote advances

Domain adaptation

not enough training data with ground truth annotations.
exhibit different distributions

Not generalize well across different domains.

alleviate the domain gap - GAN-based learning approaches.

Gan

判别器D尽量区分真假	最大化判别器对真实数据的判断置信度
生成器G尽量欺骗判别器	最小化判别器对假数据的判别能力
Log	使得0-1变化明显
当D(x)≈0.5	无法区分真假，达到理想状态

Human body models

Reduce the number of parameters while preserving the reconstructed mesh quality

Utilize other information such as BMI and silhouette

Strong human-scene relationship constraints

Physical constraints with semantic cues can provide reliable and realistic 3D HPE

Not smooth and continuous
The evaluation metrics cannot evaluate the smoothness and the degree of realisticness.

Appropriate frame-level evaluation metrics focusing on temporal consistency and motion smoothness should be developed.

Resolution mismatch--contrastive learning scheme--resolution-aware HPE networks

Training data -- high-resolution -- inaccurate estimation with low-resolution input

Defense against adversarial attacks -- improve the robustness of HPE networks and facilitate real-world pose-based applications

Estimating all body parts with varying degrees of freedom.

NAS--search the optimal architecture for estimating each body part; discover efficient HPE network architectures to reduce the computational cost;--multi-objective NAS

figure

1	taxonomy
2	Regression methods vs heatmap-based methods[Guassian kernal + heatmap-based methods ]
3	Multi-person 2D HPE--Top-Down vs Bottom-up
4	Single-person 3D HPE frameworks.--eirect estimation from 2D images; 2D to 3D lifting approaches; Human mesh
5	multi-person 3D HPE

Table

1	Date for 2D HPE
2	Comparison for 2D single-person HPE
3	Comparison of different 2D multi-person HPE methods--top-down 会好些
4	Comparison of different 2D video-based HPE methods--HRNet好些
5	Date for 3D HPE
6	Comparison of different 3D single-view single-person HPE approaches【没懂MPJPE是啥】【CPN和HRnet好像不错】
7	Comparison of different 3D single-view multi-person HPE approaches
8

Read but skim math

abstract

1.Intro

HPE--cv literature	Estimate the configuration of human body parts
HPE provides geometric and motion information about the human body
Deep learning solutions outperform classical cv methods	Image classification, semantic segmentation, and object detection
Challenges	Occlusion, insufficient training data, and depth ambiguity
2D HPE from images and videos with 2D pose annotations	Easily achievable and high performance
Highly-occluded multi-person HPE
Obtaining accurate 3D pose annotations is much more difficult than its 2D counterpart
Motion capture systems can collect 3D pose annotation in controlled lab environments; limitations for in-the -wild environments
Monocular -- depth ambiguity
Multi-view -- viewpoints association
Sensors--not cost-efficient and require special-purpose hardware
Track and summarize

1.1 Previous surveys and our contributions

Focus on the general field of visual-based human motion capture包含姿态估计，追踪，识别	姿态估计只是一部分
介绍用于单视图和多视图基于身体部位解析的方法
2001-2015发表的大多靠老套的方法，而不是深度学习
既有传统又有深度学习的方法，只有一部分基于深度学习的方法包含住了
单目HPE从经典的到最近的基于深度学习的被总结了，但是只包含了从单目摄像机得到的2D HPE和单视角3D HPE，从单目相机得到的多视角3D HPE和从其他传感器得到的3D HPE被忽略了
没有给出足够的性能比较或有深度的分析，关于现存challenge和未来方向相对较少

本调研致力于解决现存调研的短板，以提供一个对现存基于深度学习的关于2D和3D HPE的解决方式的系统综述，也涵盖了HPE其他方面，包含在流行数据集下的HPE方法的性能评估、它们的应用、全面的讨论。

distinguish：

全面的综述：最近的深度学习基础的2D和3D HPE 方法，根据2D或者3D场景、单视角or多视角、从单目图片/视频或者其他sources，以及学习范式
关于2D和3D HPE的性能评估。根据分类，使用相同数据集总结和对比有潜力的方法的报告表现。结果的比较为不同方法的优缺点提供线索，揭露HPE的研究趋势和未来方向。
大量HPE应用的概览，比如监视，AR/VR和健康
在关键挑战方向的关于2D和3D HPE的总体讨论，意在提升性能的有潜力的未来

1.2文献组织

单人

regression	直接通过全连接层或cnn预测人体关节点的位置
Heatmap-based	Heatmap--关键点在图像中的概率分布，热图的最大值作为关键点

多人

2.2d human pose estimation

Hand-crafted

Deep-learning

2.1 2d单人姿态估计

多人--crop the input image--sub-image--upper-body detector or a full-body detector

Regression vs heatmap-based method

Regression	End-to-end input-position 坐标值连续，所以是回归，而不是分类
heatmap-based method	Predict approximate location 通过高斯核生成真实的关键点热图，训练cnn来预测关键点热图，取热图的最大响应点来得到关键点位置

2.1.1 regression methods

DeepPose	以alexnet为骨架的级联的深度神经网络regressor（像串联一样层层回归）效果好，shift to 深度学习，尤其是cnn
compositional pose regression	Based on resnet-50【特征提取网络】 Structure-Aware（结构感知）--考虑数据的结构信息--关键点并非独立，而是受人体结构限制 bone-based【有关节相对关系】而不是joint-based【无法表达关节之间的关系】
an end-to-end regression approach for HPE	Argmax--最大值，传统的HPE常输出关节的heatmap，然后用argax来找出关节最可能出现的位置，不可微分 soft-argmax 可微分的argmax，用概率加权的方式计算平滑的最大值 convert feature maps到关节坐标--cnn提取特征，生成热力图，每个关节有一个热力图，用soft-argmax转换热力图到关节坐标，完全可微，可以端到端训练 in a fully diffrentiable framework完全可微框架【输入到输出所有的计算都是可微的，可以用梯度下降来训练模型】 BP反向传播训练——更新神经网络权重的核心算法，它的作用是计算梯度，并用梯度下降来优化神经网络神经网络：前向传播【依次经过各层，得到输出值，计算损失函数】+反向传播【计算损失函数对各层参数的梯度（链式法则），使用梯度下降来调整权重，降低损失，迭代】
Transformer-based cascade network来回归人体关键点，用自注意力机制来捕捉关节的空间相关性	Transformer-based Cascade Network：使用transformer代替cnn进行人体关键点回归 cascade network：多个网络串联，逐步优化关键点预测，提高精力传统HPE问题：cnn只能在局部感受野内提取特征，难以建模全局关节关系。预测关键点时，可能会因噪音或遮到导致误差 transformer的self-attention能够学习人体各关键点的全局关系（利用肩膀和手腕的位置来推测肘关节）关节的空间相关性+外观（辅助） self-attention mechanism机制：可以让网络关注图像中远距离的像素点，从而学习人体关节的全局关系【针对输入矩阵，计算注意力权重，用softmax让注意力分布归一化】【优势：可以捕捉长距离的像素关系，不局限于cnn的局部感受野，适用于HPE，因为人体关键点具有很强的全局结构约束】 transformer【encoder（将输入数据转化为一个固定长度的表示）+decoder（根据encoder输出的表示生成最终的预测结果】【self-attention（计算每个单词的表示时，关注输入中所有其他单词的信息）+multi-head attention，允许模型在处理输入时，关注整个序列的不同部分】相较于RNN或LSTM，transformer允许更高效的并行计算，因为没有依赖前一个步骤的输出局部感受野：CNN中，网络中某一层神经元能够“看到”并影响到的输入区域【仅感知输入图像中的一小部分区域--小的矩阵区域，通常叫做卷积核（filter）】通过多个卷积层的堆叠，网络扩大感受野，使得更高层的神经元能够感知到更大范围的图像特征 a normalizing flow model 正态流模型，通过可逆变换将简单分布转换为复杂分布，变换可以改变分布的形状，使其适应目标数据分布） RLE(Log-likelihood estimation)拟合程度，提高拟合能力 Capture the distribution of joint location find the optimized parameters by residual log-likelihood estimation残差对数似然估计来优化模型的参数
Multi-task learning	Encode rich pose information--姿势能够全面表达人体姿势的关键信息 learn better feature representation--multi-task learning--多个相关任务之间共享特征，损失函数的叠加可以提升效果--共享特征表示+互补信息+正则化效应+梯度指导【加权损失函数】 sharing representations between related tasks[姿态估计和基于姿态的动作识别]--generalize better on the original task heterogeneous multi-task framework--predicting joint coordinates(full image) + detecting body parts from image patches joint detection + joint localization each task corresponds to a loss function 【多任务学习，共享特征，加权损失函数】

2.1.2 heatmap-based methods

每个关键点对应一张热图（heatmap），整个姿态估计问题变成了生成 𝐾 张热图，然后在预测热图上寻找关键点的位置。【训练接近在groud truth上用高斯核得到的heatmap】

高斯核在heatmap中的作用是模拟关键点的不确定性，使得模型学习更平滑、更鲁棒的关键点预测
模型不应该只预测一个精确的像素点，而是预测一个概率分布，表示这个点的可能位置范围。高斯核的作用就是将关键点扩展成一个概率分布，常采用2D高斯分布。——更稳健地预测关键点。若使用one-hot表示关键点，误差计算时梯度几乎只作用于单个像素点，梯度更新会不稳定，用高斯核后，梯度能分布到整个热点区域，优化更稳定
不直接预测单个坐标，而是预测整个2D空间中该关键点出现的概率分布。模型学习后输出一张类似的热图，最大值是预测关键点的位置。
让 CNN 学习并预测一张热图（heatmap），希望它尽量接近 Ground Truth 热图。【使用均方误差MSE优化】
保留了空间位置信息且让训练丝滑

d developing effective CNN architectures for HPE。

CPM
SHG

HRU

PRM

HRNet

利用heatmaps+改进有效的CNN卷积神经网络

CNN	自动提取特征卷积层、池化层、全连接层
CNN基本结构	Input layer convolutional layer--卷积层的作用是提取图像特征，例如边缘、线条、纹理。通过卷积核滑动窗口计算图像的局部特征。激活函数：学习复杂模式池化层：池化是用于降维，减少计算量，提高模型的平移不变性。最大池化：取窗口内的最大值，平均池化：取窗口内的平均值全连接层：把提取的特征映射到最终输出
梯度爆炸	反向传播计算梯度，如果梯度不断增大，导致网络的权重值变得极端，使得训练无法收敛网络太深，学习率过大梯度裁剪+batch normalization
梯度消失	几乎不更新深层网络 or sigmoid/Tanh 残差连接 relu代替sigmoid/Tanh
前向传播+计算损失+反向传播+梯度下降	反向传播根据链式法则计算梯度，从后向前更新网络参数。损失函数对权重求导--梯度--偏L偏W 梯度下降--W=W-η*偏L偏W SGD/Adam更新权重
卷积核的选取？	3*3常用，捕捉局部细节为什么可以提取特征：卷积核通过局部感受野扫描图像，通过不同卷积核学习不同特征（边缘检测sobel、Laplacian）
pooling可以降维	如22最大池化，使得44的原始数据，变成2*2的，减少数据量
链式法则	用于计算梯度。每一层的权重更新是通过上一层的梯度反向传递过来的。每一层的输出是上一层的输入经过某种变换，通过链式法则。每一层的输出是上一层的输入经过某种变换（比如卷积、激活等），也就相当于一个函数呗，一种映射，权重，就是模型的参数？然后链式法则就相当于求导呗，计算损失函数相对于网络各层参数的导数，通过链式法则逐层计算误差梯度【每个权重对总损失的影响程度】，通过梯度来更新权重，来调参，优化？【例如，对于一个卷积层，输出是卷积核（权重）与输入图像的卷积结果。我们需要计算损失函数相对于卷积核的梯度。】
从输出层开始，计算损失函数对输出的梯度。为什么不是对权重的梯度？然后，利用链式法则，将梯度逐层传递回去。啥意思？举个例子？反向卷积是什么，这里不求梯度了？不用偏L偏W了？	通过调整每一层的权重来减少误差。反向传播的过程就是从输出层开始，逐层计算每一层对损失的贡献（梯度），并更新权重损失函数对于上一层的梯度就是偏L偏Ω2，也就是计算上一层对损失的贡献，通过链式法则计算，也就是损失函数对预测值的梯度*预测值对上一层的梯度（因为预测值是上一层的输入通过上一层的权重得到的，也就是Ω2），也就是输出对每一层权重求梯度，通过链式法则，得到对应层对于损失函数的贡献，也就是梯度通过反向卷积来计算卷积核的梯度。【将误差和输入图像进行卷积，得到卷积核的梯度】

什么是sequential

CPM采用了multi-stage的处理方式，不是一次性预测，而是逐层、逐步地优化预测结果，每一阶段都用上一阶段输（2d belief maps）出来进行进一步的调整和优化。

什么是2D belief maps

置信度图，是一种热力图，表示“某个像素点是关键点的概率”，每一阶段生成一个新的2D belief map，表示当前阶段对于关键点位置的估计。

Refined predictions？

不断优化后的预测结果，类似于fine-tune

CPM 介于 end-to-end 和 multi-stage pipeline 之间，属于一种逐步优化的 end-to-end 方式。

结合bottom-up和top-down？

bottom-up可能丢失全局结构信息，top-down可能丢失细节

stacked hourglass

encoder（下采样，bottom-up，逐步提取高层语义信息，相当于压缩图像信息
decoder（上采用，top-down，逐步恢复空间信息，使用skip connection结合不同层的信息，提高预测精度
stacked--多个hourglass结构堆叠，每一层预测作为下一层输入

encoder-decoder 结构，有信息压缩（编码）和信息恢复（解码）两个阶段。

transformer依靠自注意力机制，hourglass基于cnn
为什么bottomup是信息压缩？top-down是解码？好像明白了，前者是细节到全局，相当于压缩，后者是全局到细节，相当于解码。什么是上下采样呢？

下采样	减少特征图的空间分辨率，增加语义信息的抽象程度，【最大池化、平均池化】
上采样	增加特征图的空间分辨率（变大），恢复细节信息【反卷积、双线性插值、最近邻插值、像素shuffle】

为什么叫池化呢？是把那个区域都变得一样就是池化吗？就是把那一块假如2*2的变成一个数字。从而减少特征图的大小，保留最重要的信息。【保留最重要的信息】

什么是bottleneck？什么是substage

bottleneck相当于encoder的输出，也就是encoder的最后一步的结果，是encoder-decoder结构种信息最压缩、特征最浓缩的地方。【最抽象--核心摘要】
decoder将扩展的结果给substage呗【因为是多个hourglass堆叠，所以每个substage其实就是hourglass？】

什么是at every scale ？这里的pooling就是encoder就是下采样？upsampling就是decoder就是上采样？编码其实就是信息量变小，变得抽象和精炼？

at every scale 是网络在不同的层次（尺度）上提取特征
decoder则是将这些特征重新扩展、细化，从而恢复到更高分辨率的表示

什么是Residual Units？这里的filter是卷积核吗？to capture features from various scales.是什么意思，意思就是达到从不同尺度得到特征？也就是一张图比如3*3，或者5*5，或者8*8然后得到更多的特征？

Residual Units（残差单元）

ResNet中的一个核心概念。通过引入skip connection来缓解深度网络中的梯度爆炸和梯度消失。残差单元将输入直接加到输出上，形成一个残差信号，这样网络可以直接学习到输入输出之间的差异。
resnet中skip connection就是中间的输出要加上原始的输入，形成残差连接

加上 𝑥 的跳跃连接（skip connection）的核心作用就是帮助避免梯度消失问题。

Residual block	变换部分，网络中经过一些列卷积层和激活函数得到的输出，表示经过几层变换后的特征直接连接，输入x（经过简单变换，如维度匹配）直接跳跃到输出。最终输出y = f(x)+x
	学习残差比学习完整映射要容易得多，有助于网络收敛。提供直接路径来传递梯度，避免梯度消失或爆炸
	f(x) 代表的是残差，它是网络需要学习并优化的部分。而加上 𝑥 x 是为了帮助网络在训练过程中更好地传递梯度，从而缓解梯度消失和加速收敛。
为什么加上x有助于传递梯度？	它的梯度在反向传播过程中不会呗变换操作消耗掉，从而更有效传递梯度。x的梯度在反向传播过程中能保持原始状态，直接传递到更早的层。【稳定基准，无变化，每一层都有足够信息】 skip connection将x降入到输出中，为网络提供捷径，使得梯度更容易传递到最开始的层。【x的梯度不会被操作消耗，保证x的梯度在网络中有效传播，不会因多次变换导致梯度消失】通过学习残差f(x)，可以更容易学习到输入和输出的差异，而非完整映射，这样网络只需要学习修正输入f(x)，而不是整个映射过程。
	有了skip connection，某一层的输入x可以直接参与后续输出，即使网络变得很深，输入x的梯度也能在反向传播时有效地传播回去。也就是为梯度提供了一条直接路径，使得梯度可以直接流经x，避免梯度消失。
为什么x一定会有梯度？	损失函数对输出的梯度，通过跳跃连接传递给x，所以无论经过多少层变换，x总可以通过梯度传播机制传递影响。如果x参与了最终输出y，也就是对最终结果有贡献，那么损失函数就有对x的梯度，而每层都有x，则每一层都有梯度。但是为什么能确保每一层梯度都能向前传递呢？因为每一层都有加x

Filter

卷积核。它会在特征图上滑动，通过与局部区域的点积计算特征图的输出

to capture features from various scales.

通过不同尺寸卷积核，捕捉图像中不同尺寸区域上的特征。如较小的卷积核更关注局部细节，较大的卷积核能捕捉更广泛的上下文信息。

pyramid residual module是multi-branch的，是为了能适应不同大小、尺度的输入，更加稳健，提高泛化能力，具有尺度不变性。【更多特征+尺度不变性】

什么是multi-branch ？	在网络中同时使用多个不同的路径来处理输入特征。多分支允许多个并行的路径来提取不同层次或尺度的信息。这样可以增加网络的表达能力，使其能够更好地学习不同特征。inception是一种典型地多分支，它在不同分支上使用不同大小的卷积核，以捕获不同尺度的信息。
什么是Pyramid Residual Module？	pyramid代表金字塔结构，通常意味着在不同尺度上提取特征，以增强模型对不同大小物体的感知能力。更好处理多尺度信息。--更稳健
什么是enhanced invariance？	增强的尺度不变性尺度不变性：神经网络能在不同大小、不同尺度的输入数据上保持一致的性能，不管物体大小如何，都能正确识别。

HRNet通过并行的多分辨率（即不同降采样程度），进行多尺度融合，可以更全面地捕捉细节和全局信息，从而更好地预测关键点。

multi resolution 也像nulti-branch吗	Multi-branch是不同的卷积核，不同的感受野，目标是获得更多不同层次的特征。什么是并行保持高分辨率？不是多分辨率吗？分辨率是相同的吗还是不同的，不同的怎么确保是高分辨率呢？
怎么做到分辨率不同的呢？pooling吗？	多条不同分辨率的特征通道
multi-scale fusions是什么？	跨分辨率的信息融合--多尺度融合
什么是并行保持高分辨率？不是多分辨率吗？分辨率是相同的吗还是不同的，不同的怎么确保是高分辨率呢？	多分辨率的特征表示是并行的，而不是逐层降采样。并行高分辨率并不意味着所有分辨率都一样，而是指高分辨率的特征不会被直接降采样和丢弃，低分辨率特征仍然存在，并与高分辨率特征进行融合，最终仍然依赖高分辨率特征进行预测 resnet：高分辨率-低分辨率-低分辨率预测-上采样恢复高分辨率 hrnet：高分辨率&低分辨率一直都在，并不断融合-预测基于高分辨率【逐层降采样的网络会丢失细节信息，上采样无法完全恢复，而hrnet通过并行高分辨率确保高分辨率信息始终存在，能准确预测关键点，边界】
既然高分辨率的那么重要，为什么resnet要降低分辨率获得信息呢？	通过逐步降采样，resnet可以在更低分辨率的特征图上进行卷积，减少计算量，同时捕捉更大范围的信息分辨率低都是包含了更丰富的全局信息让特征更加鲁棒，减少噪声。适用于分类 HRnet需要精确空间信息，所以采用并行多分辨率结构来兼顾全局和细节
什么是感受野	卷积核大小决定局部感受野，更深的网络层感受野更大，池化或步长会增大感受野
什么是步长	卷积核在输入特征上滑动的步幅

Lite-HRNet减少计算量，CCWB让通道间信息可以动态加权。channel交换信息是为了整合不同特征，分辨率交换信息是为了融合全局和细节信息（CCWB是方式）

light-weighted 体现在哪里？	去掉高计算量的1*1卷积 ccwb代替普通信息交换方式减少部分通道和计算冗余，但是仍然保持多分辨率特征融合计算量少但是精度接近
conditional channel weighting blocks是什么？CCWB	为每个通道分配动态权重，使得不同通道能自适应调整信息贡献。基于输入特征自适应调整信息流向【自适应决定哪些通道重要，哪些分辨率的信息需要被保留或加强】
exchange information between channels and resolutions不同的channel应该和channel换信息吧，resolution也是？这个channel是啥？	通道间特征可以交互，多分辨率并行。

gans

	生成器生成生物可信的姿势配置，判别器区分高可信度的预测和低可信度的预测
Gans	遮挡问题--gans可以生成更真实合理的姿势
the poses of the occluded body parts	被遮挡的身体部位的姿势，gans可以推测这些被遮挡的部位，
hourglass不是encoder-decoder吗？它为什么可以有效refine joints？	提取全局+恢复局部，能够多尺度信息融合，hourglass一般结合resnet残差块
什么是structure-aware conditional adversarial network？	Structure-aware就是结构感知的，考虑关键点之间的空间关系
？an hourglass network-based pose generator 其实就相当于一个hourglass网络的基础上加上两个判别器吗？为什么要两个判别器呢？	1.pose generator（基于hourglass的生成器） 2.两个判别器：从不同层次去约束人体姿态的合理性 2.1局部判别器局部关节是否合理 2.2全局判别器整体姿态是否符合人体结构
生成器和判别器都是stacked hourglass？	架构一致，意味着两者具有相同的特征提取能力，这样生成器更容易学习如何生成更符合真实分布的姿态，（传统cnn判别器只能判断像素级错误，而hourglass的多尺度特征融合能检查局部细节和整体一致性） cnn：多个卷积层+池化层+全连接层 hourglass：下采样+上采样，保留不同尺度的特征，skip-connection保证高分辨率信息不会丢失
对抗数据增强网络ADAN	gans不能提升数据的多样性，容易过拟合 ADAN：HPE网络当作判别器，数据增强网络当作生成器。【数据增强网络添加噪声、遮挡、生成难例，HPE区分哪些数据是真实地】【针对弱点动态优化数据增强策略，提高泛化能力】

Body structure information

什么是hard negatives	困难负样本--容易被模型误分类为正样本地负样本
	通过人体部位地空间和外观一致性找到hard negatives 空间一致性--关节点地位置是有固定结构地外观一致性--颜色、纹理接近
什么是structured feature-level learning framework？	结构化特征级学习框架，在特征层面显示建模人体关节直接的关系。Feature-level表示在特征提取阶段建立这种关联，而不是在最终的预测阶段才进行约束。
reasoning the correlations among human body joints in HPE是合理化HPE中人体关节的关联吗？还是让它变得有逻辑性？就是利用这部分信息变得有逻辑？可用？	Reasoning the correlations可以理解为推理人体关节之间的关系，明确人体关键点之间的逻辑性和关联性
which captures richer information of human body joints and improves the learning results. 就是得到了更多人体关节的信息？
Multi-scale是什么？Multi-Scale Structure-Aware Neural Network 是什么？	Multi-scale不仅是不同卷积核，也是不同分辨率的特征图。多尺度结构感知神经网络，multi-scale supervision不只是对最终输出进行监督，更是对不同尺度的特征图也进行监督，保证模型在不同层次都能学到有意义的特征。 multi-scale feature combination多尺度特征组合，把不同尺度的特征融合，既有局部细节又有全局结构信息每个尺度都structure-aware
Structure-Aware Loss Information Scheme 是什么？	损失信息方案。传统HPE损失函数通常只是计算关键点坐标误差，如MSE，可能会忽略关键点的相对结构关系。Structure-aware loss不仅关注单个关键点位置误差，还考虑人体结构信息。
Keypoint Masking Training Method 是什么？	应对人体关键点的遮挡问题。使得模型在关键点缺失的情况下仍然可以做出合理预测。在训练时随机遮挡某些关键点，让魔心学会根据可见的关键点信息推理出呗遮挡的关键点。
什么是deeply learned compositional model？	将复杂的人体姿态分解成为多个身体部位，学习它们的相互关系，理解人体部位之间的结构性关系。
Hourglass-Based Supervision Network 是什么？	在不同尺度上都进行监督
这个模型学到了什么	组合模式信息。不仅预测单个关键点，而是学习人体各部分的组合模式，包括方向、尺度、形状
Part-based Branches Network	不是所有身体部位都有相关性，因此不需要一个全局共享的表示，而是应该对不同部位组分别建模

Human poses in video sequences

Spatio-temporal

空间结构和时间序列

建模时空信息很重要

双分支网络结构，处理时空维度的特征【相邻帧】--更具有表达性的模型

两个分支提取不同维度的特征。一个专注于颜色，一个专注于动作，然后融合，构建一个能够有效捕捉时空特征的模型。
连续的帧对之间的特征提取。两个连续的帧用于捕捉运动信息，

结合时间上下文

什么是Temporal context information（时间上下文信息）	随着时间推移，帧与帧之间的变化所包含的动态信息。
Optical flow	描述图像中物体运动的技术，描述像素点随时间的移动速度和方向，也就是光流可以捕捉安东连续帧之间每个像素点的运动。
Align predicted heatmaps from neighboring frames（对齐相邻帧的预测热图）	对齐热图，使得能够在多个帧之间共享时间上下文

循环结构Lstm
时间几何一致性
不同帧之间的依赖性

为什么之前基于视频的方法计算上紧张？	每一帧都要提取
有lstm的循环结构捕获不同帧之间的时间几何一致性和依赖性
lstm属于RNN循环神经网络的一种变体，它的结构按时间步进行循环，会从前面时间步的信息中学习，并将这些信息传递到后面的时间步。LSTM的核心是在时间序列中重复使用相同的网络单元，并让前面的状态影响后面的状态：输入+隐藏状态->新状态【能够学习长期以来关系】
递归结构是一种时间序列建模方法，lstm是其中一种常见架构
lstm适用于时序数据，能保留过去帧的信息，结合当前帧进行预测，而不是逐帧独立计算。
lstm允许模型在每一帧记住之前帧的姿态信息，从而使关键点估计更稳定，不会因为个别帧的噪声而剧烈波动

时间几何一致性--视频中人体关键点的位置不能在相邻帧间发生不合理的突变，而应该符合人体运动的几何规律
不同帧之间的依赖性，当前帧的姿态不仅取决于自己的图像特征，还取决于前几帧的姿态信息。

KPN选择关键帧，HPIM对非关键帧进行姿态插值，保持时序平滑，

什么是keyframe proposal network？

关键帧提议网络KPN主要用于在视频序列中选择关键帧，以减少计算量，同时保留对姿态估计最重要的信息。
视频中包含大量冗余帧，而人体姿态在相邻帧之间通常不会发生剧烈变化，因此智能选择少量关键帧提高计算效率。
KPN通过CNN、LSTM、transformer等模型，从帧序列中提取特征，并预测哪些帧是关键帧

什么是human pose interpolation module

人体姿态插值模块HPIM，用于补充非关键帧的姿态信息。KPN只选择了部分帧进行计算，中间的帧没有进行姿态估计，为了避免关键帧之间的姿态断裂，HPIM通过插值方法推测非关键帧的姿态。

2.2 2d多人姿态估计

Top-down+bottom-up【bottom-up更快，因为不需要分开检测每个人的pose】

2.2.1 top-down pipeline

added a few deconvolutional layers in the ResNet

a few deconvolutional layers

反卷积层，也叫转置卷积，用于上采样，主要用于恢复高分辨率特征图。
将经过resnet提取的低分辨率特征图放大，逐步恢复到高分辨率，更清晰【因为resNet作为主干网络，会jingguo多次卷积和池化操作，导致特征图尺寸逐渐缩小，反卷积层可以恢复特征图尺寸】
仅在resnet的基础上增加少量反卷积层，可以获得高分辨率热力图，减少计算量，提高推理速度。
反卷积为高分辨率可以提升姿态估计的准确度

a two-stage graph-based and model-agnostic

framework

two-stage graph-based	两阶段基于图的方法。粗略关键点定位子网络+图姿态优化模块（基于图神经网络对关键点进行优化调整）基于图：人体关节点天然可以构成一个图：关节点可以视为图的节点，关节点之间的连接可以视为图的边
model-agnostic	不依赖于特定的HPE模型，而是可以适用于不同的姿态估计模型。Graph-PCNN可以作为一个后处理模块来提高关键点的定位精度。

·关键点精确性+全局

Residual steps network	残差步网络RSN 多步的特征提取方式，在不同深度的网络层中逐步提取特征，而不是单次残差连接高效的层内特征融合策略，充分利用不同层的特征信息，提高局部特征表达能力。 RSN逐步细化（低级别特征->中级特征->高级）【大残差块呗拆分为多个小的残差步，每个step只提取一部分信息，并逐步优化特征。】，而resnet在一个残差快里直接计算完整的特征变换，而RSN更细致、渐进
Intra-level feature fusion	层内特征融合，同一层不同路径之间进行特征融合。【传统resnet层与层之间做特征融合，深层依赖浅层。RSN在同一层的不同step之间也做特征融合】
Pose refine machine	PRM 在局部特征和全局特征之间找到平衡，在局部信息的基础上，利用全局结构信息进行约束，防止预测出的关键点偏离人体结构的合理范围。解决局部模糊问题

Estimating pose under occlusion and truncation scenes

重叠、遮挡、截断

Integer linear programming	数学优化方式，用于在约束条件下最优化目标函数，所有变量必须是整数，目标是最小化or最大化一个线性函数，约束条件也是线性的。用于优化关节与人物之间的匹配。
Joint-to-Person Association Problem	解决关键点分配问题，确保同一个人的所有关节都被正确连接；合理填补遮挡的关键点。 ILP的作用：以整数变量来表示每个关键点属于哪个人，通过约束条件来优化分配，计算最优匹配，使得所有人的姿态都尽量合理，即使有严重遮挡。