当前位置: 首页 > news >正文

Large-scale CelebFaces Attributes (CelebA) 数据集生态:核心详解、免费下载与三大扩展应用全景​

Large-scale CelebFaces Attributes (CelebA) Dataset

Sample Images

1. 前言

一、简介

Large-scale CelebFaces Attributes (CelebA) Dataset 是由香港中文大学 MMLAB 推出的大型人脸属性数据集,包含202,599 张名人图像10,177 个身份,每张图像标注了5 个地标位置40 个二进制属性,图像涵盖大姿态变化与背景干扰,可用于人脸属性识别、人脸识别、人脸检测等计算机视觉任务;

类别​

​具体信息​

​数量 / 说明​

​身份覆盖​

名人身份数量

10,177 个

​图像规模​

人脸图像总数

202,599 张

​空间标注​

面部关键点位置

5 个 (眼尖、嘴角、鼻尖)

​属性标注​

图像属性标注类型

40 个二进制属性(如性别、是否微笑、是否戴眼镜等)

​图像特征​

姿态与背景

涵盖大姿态变化、复杂背景干扰,更贴近真实场景

核心应用任务​​:

  • ​人脸属性识别​​:判断40种属性的存在与否。

  • ​人脸识别/验证​​:判断图像是否属于同一身份。

  • ​人脸检测与定位​​:基于关键点进行人脸及部件定位。

  • ​人脸编辑与合成​​:作为生成模型(如GANs)的训练数据,进行属性编辑。

后续于 2020 年 7 月发布相关数据集 CelebAMask-HQ 和 CelebA-Spoof,2021 年 9 月发布 CelebA-Dialog,数据集仅支持非商业研究使用,需引用论文《Deep Learning Face Attributes in the Wild》(ICCV 2015),若官方链接不可用可通过百度网盘下载。

  • CelebAMask-HQ (2020)​​: 提供30,000张高分辨率图像的​​精细化19类语义分割掩码​​,专注于人脸解析与编辑。

  • ​CelebA-Spoof (2020)​​: 大规模人脸活体检测数据集,包含超过62万张图像和​​丰富的反欺诈注解​​(如攻击类型、光照环境)。

  • ​CelebA-Dialog (2021)​​: 创新性的​​视觉-语言对话数据集​​,将人脸图像与细粒度的编辑对话相关联,支持基于自然语言的交互式人脸编辑。

二、官网及下载地址

Celeb:https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html 

谷歌下载链接:https://drive.google.com/drive/folders/0B7EVK8r0v71pWEZsZE9oNnFzTm8?resourcekey=0-5BR16BdXnb8hVj6CNHKzLg&usp=sharing

百度下载链接(password: rp0s).:https://pan.baidu.com/s/1CRxxhoQ97A5qbsKO7iaAJg#list/path=%2F

2. 思维导图(mindmap)

3. 详细总结

一、数据集概述

CelebA(Large-scale CelebFaces Attributes Dataset)是香港中文大学 MMLAB 构建的大型人脸属性数据集,核心特点为 “大多样性、大数量、丰富标注”,具体规模如下表所示:

类别具体信息数量 / 说明
身份覆盖名人身份数量10,177 个
图像规模人脸图像总数202,599 张
空间标注面部地标位置数量5 个
属性标注图像属性标注类型40 个二进制属性
图像特征姿态与背景涵盖大姿态变化、背景干扰

该数据集可作为训练集与测试集,支撑多种计算机视觉任务,包括:

  • 人脸属性识别
  • 人脸识别
  • 人脸检测
  • 地标(或面部部件)定位
  • 人脸编辑与合成

二、相关数据集发布(News 板块)

MMLAB 后续基于 CelebA 扩展发布了多个相关数据集,具体信息如下:

  1. 2020 年 7 月 10 日:发布 2 个相关数据集 ——CelebAMask-HQ、CelebA-Spoof
  2. 2021 年 9 月 10 日:发布 1 个相关数据集 ——CelebA-Dialog

下表从核心定位数据规模标注内容核心任务关键特点发布时间6 个维度,对 CelebAMask-HQ、CelebA-Spoof、CelebA-Dialog 三个扩展数据集进行全面对比:

对比维度CelebAMask-HQCelebA-SpoofCelebA-Dialog
核心定位高分辨率人脸精细语义分割与编辑人脸活体检测(反欺诈)人脸 - 多轮对话跨模态配对
数据规模30,000 张 1024×1024 高分辨率人脸图像500,000 + 张图像,覆盖 1,000 + 真实身份10,000 + 组人脸 - 对话样本,含 50 + 轮对话
标注内容19 类面部语义掩码(如头发、眼睛、嘴巴等)、人脸属性标签活体 / 攻击二分类标签、攻击类型标签(如打印纸、电子屏、3D 模型)、光照 / 姿态标签人脸身份标签、多轮对话文本、对话情感标签(如中性、开心、生气)
核心任务人脸语义分割、人脸编辑(如换发型、改妆容)、人脸生成人脸活体检测(区分真实人脸与伪造攻击)、跨场景欺诈检测视觉 - 语言跨模态检索、对话情感分析、人脸 - 对话关联生成
关键特点首次提供高分辨率人脸精细掩码,解决低分辨率分割精度不足问题覆盖多种常见攻击类型,支持复杂场景(如不同光照、姿态)下的模型训练首次将人脸视觉信息与对话文本关联,填补跨模态数据空白
发布时间2020 年 7 月 10 日2020 年 7 月 10 日2021 年 9 月 10 日
  1. 数据类型差异:CelebAMask-HQ 与 CelebA-Spoof 为纯视觉数据集,聚焦人脸外观与真实性;CelebA-Dialog 为视觉 - 语言跨模态数据集,新增对话文本维度。
  2. 核心任务差异:前两者服务于 “人脸分析与安全”(分割、编辑、反欺诈);后者服务于 “跨模态融合”(视觉与语言的关联任务)。
  3. 标注精细度差异:CelebAMask-HQ 以 “语义掩码” 为核心,标注最精细;CelebA-Spoof 以 “攻击类型” 为核心,标注侧重场景与安全性;CelebA-Dialog 以 “文本 - 视觉关联” 为核心,标注侧重语义与情感。
2.1 CelebAMask-HQ(https://github.com/switchablenorms/CelebAMask-HQ)

标注文件

  • 语义掩码标注(19 类面部部件):包含头发、眼睛、鼻子等精细区域划分,可通过 GitHub 仓库获取预处理脚本。

技术文档摘要

  • 核心技术细节
    • 基于 CelebA-HQ 的高分辨率(1024×1024)人脸图像,通过专业标注工具生成像素级语义掩码,解决低分辨率分割精度不足问题。
    • 支持人脸编辑任务(如换发型、改妆容),可与生成对抗网络(GAN)结合实现语义可控的图像合成。
  • 数据划分
    • 包含 30,000 张图像,未明确划分训练 / 验证 / 测试集,建议根据任务自行拆分。
2.2 CelebA-Spoof(https://github.com/ZhangYuanhan-AI/CelebA-Spoof)

技术文档摘要

  • 核心技术细节
    • 包含 625,537 张图像,覆盖 10,177 个身份,标注了活体 / 攻击二分类标签及 10 种攻击类型(如打印纸、电子屏、3D 模型),支持跨场景欺诈检测。
    • 引入多任务框架 AENet,结合语义和几何信息提升模型泛化能力,在复杂光照和姿态下表现优异。
  • 数据划分
    • 训练集包含 386,270 张图像,测试集包含 53,858 张图像,测试身份与训练身份完全独立。
2.3 CelebA-Dialog(https://github.com/yumingj/Talk-to-Edit)

技术文档摘要

  • 核心技术细节
    • 包含 10,000 + 组人脸 - 对话样本,每组对话含 50 + 轮交互,标注了人脸身份、对话文本及情感标签(如中性、开心、生气),支持视觉 - 语言跨模态检索。
    • 结合 LSTM 语言编码器和语义场(Semantic Field)技术,实现基于自然语言的高细粒度人脸编辑(如调整笑容程度、添加眼镜)。
  • 数据划分
    • 未公开具体划分比例,建议根据任务需求(如对话生成或情感分析)自行拆分。

三、下载资源与标注文件

数据集提供多种格式的下载资源,涵盖图像、标注及评估划分,具体如下:

3.1 图像资源(ZIP 格式)
  • In-The-Wild Images:“野生” 场景下的人脸图像(未经过多预处理)
  • Align&Cropped Images:经过对齐与裁剪处理的人脸图像(便于标准化使用)
3.2 标注文件(均为 TXT 格式)
  • Landmarks Annotations:面部 5 个地标位置的标注文件
  • Attributes Annotations:每张图像 40 个二进制属性的标注文件
  • Identities Annotations:图像对应 10,177 个身份的标注文件
3.3 评估资源(TXT 格式)
  • Train/Val/Test Partitions:数据集的训练集、验证集、测试集划分文件,用于模型评估
3.4 备用下载渠道

若上述官方下载链接不可访问,可通过百度网盘下载数据集。


http://www.dtcms.com/a/498930.html

相关文章:

  • 【BuildFlow 筑流】品牌命名与项目定位说明
  • PHP 8.0+ 现代Web开发实战指南 引
  • 沈阳有什么网站浙江网架公司
  • 零基础学AI大模型之RAG技术
  • 【论文速递】2025年第30周(Jul-20-26)(Robotics/Embodied AI/LLM)
  • Photoshop修图
  • R 矩阵:解析与应用
  • java.io 包详解
  • 整体设计 逻辑系统程序 之34七层网络的中台架构设计及链路对应讨论(含 CFR 规则与理 / 事代理界定)
  • Vue3 项目创建实战:Vue CLI 与 Vite 深度对比与操作指南
  • C++|手写shared_ptr实现
  • Python 数据分析入门:Pandas vs NumPy 全方位对比
  • 学做网站能赚钱吗信息平台网站模板
  • Redis为什么是单线程的
  • layuiadmin与laravel 12 前后端分离nginx配置
  • IDEA在文件中查找快捷键失效
  • 整合知识图谱与大语言模型:下一代药物发现的革命性技术
  • 详解TCP(详细版)
  • TCMalloc原理解析(上)
  • OpenCV深度学习:目标检测、人脸识别与智能视频分
  • 电子商务网站有哪些内容wordpress漏洞2019
  • FileNotFoundError: [WinError 3] 系统找不到指定的路径。
  • qq音乐怎么做mp3下载网站安阳县教育局官网
  • 深度学习进阶(七)——智能体的进化:从 LLM 到 AutoGPT 与 OpenDevin
  • Redis面试八股
  • 做网站从设计到上线流程山西专业网站建设价目
  • 排序算法:详解插入排序
  • [MLflow] 部署OpenAI聊天网关 | 令牌桶算法限流 | 分布式追踪 | Trace Span
  • 【010】智能图书系统
  • LeetCode 刷题【124. 二叉树中的最大路径和】