当前位置: 首页 > news >正文

人体姿态估计常用数据集介绍

目录

一、人体姿态估计研究方向简介

二、人体姿态估计常用数据集介绍 

1. COCO Keypoints

2. MPII Human Pose

3. Human3.6M

4. AI Challenger Human Keypoint Detection

5. Leeds Sports Pose (LSP) 及其扩展版 LSP Extended

6. PoseTrack

7. CrowdPose

8. OCHuman

9. 3DPW (3D Poses in the Wild)

10. SURREAL

数据集分类总结

研究方向趋势


一、人体姿态估计研究方向简介

人体姿态估计(Human Pose Estimation)是计算机视觉领域的核心任务之一,旨在从图像或视频中检测并定位人体的关键解剖部位(如关节、头部、四肢等),构建人体骨架模型。其核心目标包括:

  • 2D姿态估计:在图像平面上预测人体关键点的二维坐标。

  • 3D姿态估计:进一步恢复关键点的三维空间位置,或估计关节角度。

  • 多人姿态估计:在复杂场景中同时检测多人的姿态,解决遮挡、密集人群等问题。

应用场景广泛,包括动作识别、人机交互、运动分析、虚拟现实、医疗康复等。近年来,随着深度学习技术的进步,姿态估计在精度和实时性上均取得显著突破。


二、人体姿态估计常用数据集介绍 

1. COCO Keypoints
  • 数据规模:超过20万张图像,25万标注人体实例,包含17个关键点(头、四肢、躯干)。

  • 标注特点:提供2D关键点坐标、遮挡标签、人体检测框,覆盖室内外复杂场景。

  • 应用场景:通用多人姿态估计基准,支持目标检测与姿态估计联合任务。

  • 挑战:遮挡、小目标、复杂背景,多人密集场景下的歧义性。

  • 官网:COCO - Common Objects in Context


2. MPII Human Pose
  • 数据规模:约25,000张图像,40,000人体实例,16个关键点标注。

  • 标注特点:包含丰富的日常活动(如运动、烹饪)和3D关节角度(部分数据)。

  • 应用场景:适用于单人姿态估计,尤其关注复杂动作的多样性。

  • 挑战:大范围肢体形变、非对称姿态、罕见动作。

  • 官网:http://human-pose.mpi-inf.mpg.de/


3. Human3.6M
  • 数据规模:360万帧视频,11名演员,17个关键点的3D坐标。

  • 标注特点:多视角同步视频(4个摄像机)、3D运动捕捉数据、动作类别标签(如走路、打电话)。

  • 应用场景:3D姿态估计与动作识别的黄金基准,常用于模型泛化能力测试。

  • 挑战:从单目图像恢复3D姿态的深度歧义性,光照与服装变化。

  • 官网:http://vision.imar.ro/human3.6m/


4. AI Challenger Human Keypoint Detection
  • 数据规模:31万张图像,38个关键点(包含手部细节)。

  • 标注特点:中文场景数据,覆盖多种体型、年龄、光照条件。

  • 应用场景:细粒度姿态估计,适用于手势识别等任务。

  • 挑战:多样化的服饰(如长袖遮挡手部)、复杂背景。

  • 官网:https://challenger.ai/


5. Leeds Sports Pose (LSP) 及其扩展版 LSP Extended
  • 数据规模:LSP含2,000张运动场景图像,LSP Extended增至11,000张。

  • 标注特点:14个关键点,专注于体育动作(如田径、体操)。

  • 应用场景:研究运动姿态的极端形变和遮挡问题。

  • 挑战:高难度动作下的关键点可见性低,快速运动导致的模糊。

  • 官网:LSPe - Leeds Sports Pose Extended — dbcollection 0.2.6 documentation

6. PoseTrack
  • 数据规模:视频片段超过1,500段,30万帧,多人标注。

  • 标注特点:2D关键点与跨帧人体ID跟踪标签。

  • 应用场景:视频中的多人姿态估计与跟踪联合任务。

  • 挑战:长时遮挡、跨帧姿态一致性、快速运动导致的ID切换。


7. CrowdPose
  • 数据规模:20,000张图像,包含80,000个高度拥挤场景中的人体实例。

  • 标注特点:14个关键点,强调密集人群中的遮挡与重叠。

  • 应用场景:优化拥挤环境下的多人姿态估计算法。

  • 挑战:极端拥挤导致的关键点误匹配、检测框重叠。 


8. OCHuman
  • 数据规模:5,000张图像,13个关键点,专注于严重遮挡场景。

  • 标注特点:80%以上实例存在重度遮挡(如被物体或其他人遮挡)。

  • 应用场景:测试模型在遮挡条件下的鲁棒性。

  • 挑战:关键点可见性极低,依赖上下文推理。


9. 3DPW (3D Poses in the Wild)
  • 数据规模:60段室外视频,3D姿态与形状参数(SMPL模型)。

  • 标注特点:单目视频中的3D姿态、相机参数、背景动态变化。

  • 应用场景:室外环境下的单目3D姿态估计与人体建模。

  • 挑战:动态光照、复杂背景干扰、无标记3D重建。

  • 官网:3DPW | Real Virtual Humans


10. SURREAL
  • 数据规模:合成数据,600万张图像,3D关键点与人体形状。

  • 标注特点:通过CG生成多样化人体动作、光照与纹理。

  • 应用场景:3D姿态估计模型的预训练与域适应研究。

  • 挑战:合成到真实场景的泛化能力。


数据集分类总结

类别代表性数据集核心特点
通用2D姿态COCO, MPII, AI Challenger多样场景、多人检测
3D姿态Human3.6M, 3DPW, SURREAL多视角、运动捕捉、合成数据
视频姿态跟踪PoseTrack跨帧ID关联、时序一致性
遮挡与拥挤CrowdPose, OCHuman极端遮挡、密集人群
特定动作LSP, Human3.6M运动姿态、复杂动作

研究方向趋势

未来研究将更关注:

  1. 弱监督/自监督学习:减少对高成本3D标注的依赖。

  2. 多模态融合:结合IMU、深度传感器等多源数据。

  3. 实时性与轻量化:部署到移动端或边缘设备。

  4. 复杂场景泛化:解决遮挡、光照变化、动态背景等问题。

 如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!! 

相关文章:

  • 32、Server.Transfer和Response.Redirect的区别是什么?
  • 5 个开源 MCP 服务器
  • 第三次作业(密码学)
  • 4、CMake基础:日志、变量操作和宏定义
  • 跨越养生误区雷区,迈向科学养生大道
  • Python项目打包部署
  • node.js 实战——mongoDB 续一
  • 在阿里云实例上部署通义千问QwQ-32B推理模型
  • Linux基础篇、第一章_01_3安装虚拟机手动安装部署Ubuntu22.04服务器
  • Maven根据Google proto文件自动生成java对象
  • Vue基础(一) 基础用法
  • uniapp 小程序 安卓苹果 短视频解决方案
  • 云数据中心整体规划方案PPT(113页)
  • 怎样学习Electron
  • Reverse-WP记录9
  • rust 全栈应用框架dioxus
  • LeetCode58_最后一个单词的长度
  • 创龙全志T536全国产(4核A55 ARM+RISC-V+NPU 17路UART)工业开发板硬件说明书
  • 电子电器框架 --- 数据连接性和云集成在增强电气/电子架构方面的作用
  • 技术白皮书:Oracle GoldenGate 优势
  • 贵州茅台一季度净利268亿元增长11.56%,系列酒营收增近两成
  • 外交部:美方应在平等、尊重和互惠的基础上同中方开展对话
  • 张元济和百日维新
  • 王毅会见俄罗斯外长拉夫罗夫
  • 吉林省公安厅出入境管理总队政委明志全已任省安保集团总经理
  • 洛阳原副市长收礼品消费卡,河南通报6起违反八项规定典型问题