扩展阅读:数据标注的两种类型 - 矩形框标注 和 关键点标注
在计算机视觉和人工智能数据标注中,矩形框标注(Bounding Box Annotation)和关键点标注(Keypoint Annotation)是两种常见且重要的标注类型,分别用于不同的任务目标。本文将详细解释它们的定义、用途、格式和典型应用场景:
一、矩形框标注(Bounding Box Annotation)
定义
用一个矩形框(通常是轴对齐的,即边与图像坐标轴平行)包围图像中的目标对象。
常见格式
- 
(x_min, y_min, x_max, y_max) - 左上角 (x_min, y_min),右下角(x_max, y_max)
- 常见于 CSV、Pascal VOC、自定义数据集
 
- 左上角 
- 
(x, y, width, height) - (x, y)是左上角坐标,- width和- height是宽高
- COCO 格式采用此表示
 
典型应用场景
- 人脸检测(框出人脸区域)
- 行人检测
- 车辆检测
- 通用目标检测(如 YOLO、Faster R-CNN 的输入)
示例(人脸检测)
image.jpg, 100, 80, 200, 220, face
表示在 image.jpg 中,从 (100,80) 到 (200,220) 的矩形区域内有一张人脸。
二、关键点标注(Keypoint Annotation)
定义
标注目标对象上的特定语义点(landmarks),每个点有明确的含义和固定名称。
格式
通常表示为:
- (x, y) 坐标 + 可见性标志(可选)
- 每个关键点有预定义的名称或索引
常见表示方式:
- 
字典形式(便于阅读): {"left_eye": [120, 100],"right_eye": [180, 100],"nose": [150, 140],"mouth_left": [130, 180],"mouth_right": [170, 180] }
- 
列表形式(COCO 格式): "keypoints": [120, 100, 2, 180, 100, 2, 150, 140, 2, 130, 180, 2, 170, 180, 2]- 每 3 个值为一组:[x, y, v]
- v表示可见性:- 0= 未标注
- 1= 标注但不可见(如被遮挡)
- 2= 可见
 
 
- 每 3 个值为一组:
典型应用场景
- 人脸关键点检测(5点、68点、106点等)→ 用于美颜、活体检测、3D 重建
- 人体姿态估计(如 COCO 的 17 个关节点)→ 用于动作识别、健身指导
- 手部关键点 → 手势识别
- 动物姿态分析
示例(人脸 5 点)
| 关键点 | 坐标 (x, y) | 
|---|---|
| left_eye | (120, 100) | 
| right_eye | (180, 100) | 
| nose | (150, 140) | 
| left_mouth | (130, 180) | 
| right_mouth | (170, 180) | 
三、两者对比总结
| 特性 | 矩形框标注(Bounding Box) | 关键点标注(Keypoint) | 
|---|---|---|
| 目的 | 定位目标位置 | 定位目标的精细结构/语义部位 | 
| 输出粒度 | 粗粒度(整个对象) | 细粒度(特定点) | 
| 标注复杂度 | 低(只需画框) | 高(需精确定位多个点) | 
| 典型任务 | 目标检测 | 姿态估计、人脸对齐、形变分析 | 
| 是否依赖类别 | 是(需指定类别如 “face”) | 通常与类别绑定(如 “person” 的关节点) | 
| 是否可组合使用 | √ 常与关键点联合使用(如人脸检测+5点) | √ 通常在检测框内进行关键点回归 | 
💡 实际应用中,两者常结合使用:
先用矩形框检测出人脸区域,再在该区域内回归关键点坐标(两阶段 pipeline)。
四、常用工具支持
| 工具 | 矩形框 | 关键点 | 输出格式支持 | 
|---|---|---|---|
| Labelme | √ | √(Point 工具) | JSON(需后处理转 COCO) | 
| CVAT | √ | √ | COCO、Pascal VOC 等 | 
| LabelImg | √ | x | Pascal VOC、YOLO | 
| Roboflow | √ | √ | COCO、YOLO、TFRecord 等 | 
五、如何选择?
- 如果你只需要知道“有没有人脸”以及“在哪” → 用 矩形框标注。
- 如果你需要知道眼睛、鼻子、嘴巴的具体位置(如做人脸对齐、表情分析)→ 必须用 关键点标注。
- 如果两者都需要(如工业级人脸系统)→ 同时标注矩形框 + 关键点(COCO 格式天然支持)。
总结:
- 矩形框标注 = “目标在哪里”
- 关键点标注 = “目标的结构细节在哪”
两者互补,共同构成现代视觉感知系统的基础数据。
