Kling-Audio-Eval - 高质量视频到音频生成评估数据集
文章目录
- 一、关于数据集
- 基础信息
- 数据集背景
- 二、数据特性
- 1、核心特征
- 2、数据结构
- 3、数据统计
- 三、使用方式
- 1、加载代码
一、关于数据集
基础信息
- Hugging Face:https://huggingface.co/datasets/klingfoley/Kling-Audio-Eval
- 数据集主页:https://klingfoley.github.io/Kling-Foley/
- 贡献团队:Kling-Foley研究团队
- 数据集类型:专业型(音频生成评估)
- 相关论文:arXiv:2506.19774
- License:未明确(需参考论文声明)
数据集背景
核心价值:
为视频到音频生成任务提供多模态评估基准,包含精细分类的音频-视频配对数据及文本描述。
二、数据特性
1、核心特征
- 层级化数据结构:采用两级分类标签体系
- 多模态标注:同时包含视频(.mp4)、音频(.wav)和文本描述(.csv)
- 精细分类体系:覆盖9个大类、76个子类的声学场景
2、数据结构
Kling-Audio-Eval
├── 一级分类目录
│ ├── 二级分类目录
│ │ ├── video
│ │ │ └── *.mp4
│ │ ├── audio
│ │ │ └── *.wav
│ │ └── caption.csv # 包含字段:video, audio, audio_tag, video_caption, audio_caption
3、数据统计
{"Vehicle": {"Boat, Water vehicle": 236,"Aircraft": 585,"Motor vehicle (road)": 3339,"Rail transport": 848,"Non-motorized land vehicle": 678},"Human sounds": {"Digestive": 48,"Human group actions": 31,"Whistling": 1,"Respiratory sounds": 14,"Human voice": 46,"Human locomotion": 1053,"Hands": 363},// 其他类别数据保持原始结构...
}
三、使用方式
1、加载代码
from datasets import load_dataset
dataset = load_dataset("klingfoley/Kling-Audio-Eval")
伊织 xAI 2025-07-02(周三)