当前位置: 首页 > news >正文

评测系统构建

合成数据更“科研驱动”,强调 controllability 和 generalization evaluation:
之前往往直接采用经典数据集如OGB和OGB-large提供的经典数据集和数据划分思路
该思想从现有真实数据中学习参数,再构造类似但分布略异的数据集,验证模型泛化性能。(Large-Scale Synthetic Graph Dataset Generation Framework; MLG2023 KDD Workshop),在生成时调节各项参数以更全面的反映模型性能
graphworld则是提供了一个完全合成的数据集来反省模型效果(作者成为fake data)

NeurIPS 2024 Datasets and Benchmarks Track 更“产业/应用驱动”,强调 task relevance 和 community standard:
DrivAerNet++ 多模态汽车数据集,结合计算流体力学模拟与深度学习基准,用于自动驾驶研究。
DomainGallery 少样本图像生成数据集,强调属性驱动的微调方法。
Bench2Drive 封闭式端到端自动驾驶任务的多能力基准测试框架。
FEDMEKI 联邦学习场景下的医学基础模型扩展基准,注重知识注入。
GTSinger 面向歌唱任务的全球多技术语料库,包含真实音乐分数。
SolarCube 卫星与地面观测融合的大规模太阳能预测数据集。
CARE 酶分类与检索任务的基准套件,支持生物信息学研究。
VRSBench 面向遥感图像理解的多模态视觉语言基准数据集。
Sim2Real-Fire 森林火灾预测与回溯的多模态模拟数据集。
SciInstruct 科学语言模型训练用的自反式指令注释数据集。
HelpSteer 2 用于训练奖励模型的开源数据集,支持对齐与安全性研究。
WildPPG 长时间连续记录的真实世界脉搏波数据集,支持健康监测。
CRAG 综合检索增强生成(RAG)任务的基准数据集。
CVQA 多文化多语言视觉问答基准,覆盖全球多种语言与文化背景。
MMM-RS 多模态、多分辨率、多场景遥感图像生成基准。
UrbanDataLayer 城市科学研究的统一数据处理管道,支持多源数据融合。
DrivingDojo Dataset 交互式、知识丰富的自动驾驶世界模型数据集。

专门的NeurIPS 2024 Track Datasets and Benchmarks中:

DevBench 面向语言学习的多模态发展性基准,关注儿童语言习得过程
MedCalc-Bench 医学计算能力评估基准,用于测试 LLM 在医学推理中的表现
PRISM Alignment Dataset 多文化人类反馈数据集,用于研究 LLM 的主观性与对齐问题(best paper)
Brain Treebank 基于自然语言刺激的大规模脑电记录数据集,连接语言与神经活动
ChaosBench 用于气候预测的物理建模基准,支持多通道季节性预测任务
OpenMathInstruct-1 包含180万条数学指令的微调数据集,提升 LLM 数学能力
Embodied Agent Interface 用于评估 LLM 在具身决策任务中的表现,连接语言与行动
AgentBoard 多轮 LLM Agent 的分析性评估平台,支持行为与策略分析
LINGOLY 奥林匹克级语言推理题库,涵盖濒危语言与低资源语言
A Taxonomy of Challenges to Curating Fair Datasets 公平数据集构建挑战的系统分类,关注偏见与代表性问题

我们关注的是泛化与稳健性,不只是某个具体应用,同时 参考 DB Track 的设计理念,可以从 synthetic dataset generation 切入

http://www.dtcms.com/a/336501.html

相关文章:

  • 20.LeNet
  • [逆向知识] AST抽象语法树:混淆与反混淆的逻辑互换(二)
  • 2001-2024年中国玉米种植分布数据集
  • Cesium学习(二)-地形可视化处理
  • AutoSar BSW介绍
  • PyTorch 面试题及详细答案120题(01-05)-- 基础概念与安装
  • 全星质量管理 QMS:驱动制造业高质量发展的核心工具
  • 雷卯针对香橙派Orange Pi 5 Ultra开发板防雷防静电方案
  • Java研学-SpringCloud(五)
  • 如何理解“速度模式间接实现收放卷恒张力控制“
  • 题目2:使用递归CTE分析产品层级关系
  • 【从零开始学习Redis】项目实战-黑马点评D2
  • 【会议跟踪】ICRA 2021 Workshop:Visual-Inertial Navigation Systems
  • 多线程—飞机大战(加入播放音乐功能版本)
  • 【Virtual Globe 渲染技术笔记】6 着色
  • C语言---第一个C语言程序
  • Tomcat下载、安装及配置详细教程
  • Hybrid Beamforming Design for OFDM Dual-Function Radar-Communication System
  • LaTeX中表示实数集R的方法
  • 零基础搭建公网 Nginx:通过 cpolar 内网穿透服务实现远程访问
  • 朝花夕拾(四) --------python中的os库全指南
  • 【计算机数学】关于全概率和贝叶斯公式的使用场景说明
  • Linux目录相关的命令
  • 排列组合+数量+资料
  • 聊聊Vuex vs Pinia
  • MySQL执行计划解读
  • 人脸AI半球梯控/门禁读头的功能参数与技术实现方案
  • 网络常识-DNS如何解析
  • 集成运算放大器(反向加法,减法)
  • Linux Shell定时检查日期执行Python脚本