当前位置: 首页 > news >正文

Kling-Audio-Eval - 高质量视频到音频生成评估数据集

文章目录

    • 一、关于数据集
      • 基础信息
      • 数据集背景
    • 二、数据特性
      • 1、核心特征
      • 2、数据结构
      • 3、数据统计
    • 三、使用方式
      • 1、加载代码

一、关于数据集

基础信息

  • Hugging Face:https://huggingface.co/datasets/klingfoley/Kling-Audio-Eval
  • 数据集主页:https://klingfoley.github.io/Kling-Foley/
  • 贡献团队:Kling-Foley研究团队
  • 数据集类型:专业型(音频生成评估)
  • 相关论文:arXiv:2506.19774
  • License:未明确(需参考论文声明)

数据集背景

核心价值
为视频到音频生成任务提供多模态评估基准,包含精细分类的音频-视频配对数据及文本描述。


二、数据特性

1、核心特征

  • 层级化数据结构:采用两级分类标签体系
  • 多模态标注:同时包含视频(.mp4)、音频(.wav)和文本描述(.csv)
  • 精细分类体系:覆盖9个大类、76个子类的声学场景

2、数据结构

Kling-Audio-Eval
├── 一级分类目录
│   ├── 二级分类目录            
│   │   ├── video    
│   │   │   └── *.mp4               
│   │   ├── audio
│   │   │   └── *.wav    
│   │   └── caption.csv  # 包含字段:video, audio, audio_tag, video_caption, audio_caption

在这里插入图片描述


3、数据统计

{"Vehicle": {"Boat, Water vehicle": 236,"Aircraft": 585,"Motor vehicle (road)": 3339,"Rail transport": 848,"Non-motorized land vehicle": 678},"Human sounds": {"Digestive": 48,"Human group actions": 31,"Whistling": 1,"Respiratory sounds": 14,"Human voice": 46,"Human locomotion": 1053,"Hands": 363},// 其他类别数据保持原始结构...
}

三、使用方式

1、加载代码

from datasets import load_dataset
dataset = load_dataset("klingfoley/Kling-Audio-Eval")

伊织 xAI 2025-07-02(周三)

http://www.dtcms.com/a/414319.html

相关文章:

  • LeetCode 812.最大三角形的面积
  • 做网站都需要服务器吗域名类型
  • js逆向实战:爬取淘宝男装商品
  • 前端3.0
  • 机器视觉检测中,最小尺寸多少像素可以检测到?重点解析传统算法和深度学习,对比度很致命
  • 不同浏览器中高效维护需要登录网站的登录态
  • 【C++list】底层结构、迭代器核心原理与常用接口实现全解析
  • socket编程 netstat 大小端 rpc 协程 io yield
  • 网站建设与维护百度百科自己做app的软件
  • 制作公司网站要多少费用呢二手书交易网站策划书
  • 【vue3】watch、watchEffect、watchPostEffect和watchSyncEffect的区别详解
  • 【仿生机器人】核心采购清单 (仿生机器人头项目)
  • 云服务器 + Jenkins 实现项目自动化部署与上线
  • wordpress调用当前年份的7种方式
  • 通用性AI大模型辅助本科机器人课程完成编程项目的可靠性分析
  • 使用 EMQX 社区版 v5.8.7 将 MQTT 消息持久化到 MySQL 数据库的实践指南
  • MATLAB中的Excel文件操作:从入门到精通
  • SpringMVC 入门:核心概念与第一个 HelloWorld 案例
  • 山东省建设厅继续教育网站网站做商标在那类
  • 【Linux网络】Socket编程:UDP网络编程实现DictServer
  • 虚拟空间可以做视频网站么删除重装wordpress
  • 【Agent】在基于WSL2的Linux的ALSA输出音频
  • LeetCode:68.寻找两个正序数组的中位数
  • 在 Unity 中使用 SoundTouch 插件控制音频倍速播放
  • 通过keepalived搭建MySQL双主模式的MySQL集群
  • MySQL压缩表创建指南
  • 简述网站的建站流程做一个旅游团网站怎么做
  • ApplicationContext接口实现(三)
  • 英文版网站建设的意义网站怎么做友链
  • 第5章:前后端编码规范