跨语言智能再升级!Multi-LMentry 打造多语理解新基准;Nemotron-Personas-USA重塑虚拟人画像生成
公共资源速递
5 个公共数据集:
* Life Style Data 生活方式数据集
* Multi-LMentry 多语言基础任务评测基准
* Nemotron Personas USA 美国人物画像数据集
* The Diabetes Health Indicators 糖尿病健康指标数据集
* Global Earthquake-Tsunami Risk 全球地震海啸风险评估数据集
访问官网立即使用:http://openbayes.com
公共数据集
1. Life Style Data 生活方式数据集
Life Style Data 数据集是一个综合性的健康与生活方式分析基准,整合了个体在饮食、运动、生理指标和身体组成等多维度的数据,并以结构化 CSV 格式公开。主要字段包括体重、心率、运动时长、热量消耗、营养摄入和训练计划等。该数据集可用于个性化健康推荐、运动模式分析与生活方式预测建模,支持多维行为研究与健康管理优化。
* 在线使用:
https://go.openbayes.com/O9EkA
2. Multi-LMentry 多语言基础任务评测基准
Multi-LMentry 数据集是一个用于评估大型语言模型(LLMs)在多语言环境下基础语言理解与推理任务中的综合基准,涵盖英语、德语、西班牙语、韩语等九种语言。任务由母语者基于 LMentry 框架重新设计,避免直接翻译以保持语言与文化自然性,可用于系统考察模型的跨语言泛化与一致性能力。
* 在线使用:
https://go.openbayes.com/Hvb4z
3. Nemotron Personas USA 美国人物画像数据集
Nemotron-Personas-USA 数据集是一个大规模合成用户画像数据集,用于支持语言模型与智能代理的个体建模与社会行为生成。它包含约 100 万条虚拟人物记录,覆盖美国 50 个州及附属地区,涵盖职业、教育、收入、兴趣与价值观等描述。该数据集可用于评估模型在多样化对话生成与个性化行为模拟中的一致性与社会代表性。
* 在线使用:
https://go.openbayes.com/wLiWQ

数据集分布
4. The Diabetes Health Indicators 糖尿病健康指标数据集
Diabetes Health Indicators 数据集是一个用于糖尿病风险预测与公共卫生研究的综合基准,包含 31 个特征字段,覆盖人口属性、生活方式、病史与临床指标。数据经过标准化处理,结构完整、分布均衡。主要变量包括 BMI、血压、血糖、胆固醇及运动饮食习惯,并提供糖尿病诊断与分期标签,可直接用于模型训练与健康风险分析。
* 在线使用:
https://go.openbayes.com/pqBO0
5. Global Earthquake-Tsunami Risk 全球地震海啸风险评估数据集
Global Earthquake-Tsunami Risk 数据集是一个用于地震与海啸风险建模的全球基准,收录 2001–2022 年间 782 起重大地震观测数据,覆盖全球主要地震带。数据以 CSV 格式发布,包含震级、深度、台站数量、感知强度及事件显著性等字段,并标注是否触发海啸。该数据集用于地震灾害分析与海啸二分类预测研究,支持地球物理建模与灾害风险评估。
* 在线使用:
https://go.openbayes.com/p9sRO
