当前位置: 首页 > news >正文

FDAbench-Full 数据代理任务基准:Python 使用路径

在这里插入图片描述

版本:2025-10
适用场景:快速跑通 FDAbench 本地 SQLite 任务评测;为后续 Full(含云数据库与非结构化数据)做准备。
来源:FDABench 官方论文《FDABench: A Benchmark for Data Agents on Analytical Queries over Heterogeneous Data》(南洋理工大学 / 新加坡国立大学 / 华为技术有限公司,2025)


一、项目背景与任务结构

FDAbench-Full 是首个专为 Data Agents 设计的异构数据分析基准,2025 年发布,共含 2,007 个分析任务,涵盖:

  • 数据库查询生成
  • SQL 理解
  • 金融数据分析

每条样例包含:

  • task_id(任务唯一标识符)
  • instance_id(实例标识符)
  • db(数据库名称/标识符)
  • level(难度等级:easy / medium / hard)
  • database_type(数据库系统类型)
  • question_type(问题类别)
  • tools_available(可用工具列表)
  • query(主要问题/查询文本)

数据分为三类任务:

  • single:单选题
  • multiple:多选题
  • report:结构化分析报告

二、Python 环境准备

推荐环境:Python 3.10+ / Conda

conda create -n fdabench python=3.11 -y
conda activate fdabench

基础依赖

pip install datasets pandas numpy tqdm rouge-score evaluate sqlalchemy duckdb matplotlib

可选:如需 LLM 或云数据库支持

pip install openai python-dotenv
pip install snowflake-connector-python google-cloud-bigquery pybigquery

三、数据加载(HuggingFace)

from datasets import load_dataset# 加载 FDAbench-Full
ds = load_dataset("FDAbench2026/FDAbench-Full")
print(ds)
# 访问样例
sample = ds['report'][0]

HuggingFace 版本同时提供 FDAbench-Lite(289 条 SQLite 任务),可用于快速测试。


四、项目结构

fdabench-local/
├─ run.py                # 入口脚本:批量评测
├─ router.py             # 任务类型分发
├─ tools/
│  ├─ sql_exec.py        # SQLite/DuckDB 执行器
│  └─ schema_introspect.py
├─ agents/
│  └─ mini_agent.py      # 规划→执行→结果→评测
├─ eval/
│  ├─ metrics.py         # EX/ROUGE/TR/SR 计算
│  └─ logger.py
├─ data/
│  ├─ sqlite/            # *.sqlite 本地数据库
│  └─ cache/
└─ configs/└─ local.yaml

五、任务路由逻辑

def route_task(sample):qtype = sample["question_type"]if qtype == "single":return run_single_choice(sample)elif qtype == "multiple":return run_multiple_choice(sample)elif qtype == "report":return run_report(sample)else:raise ValueError(f"Unknown question_type: {qtype}")

六、SQLite 查询执行器

import sqlite3, pandas as pddef run_sqlite_query(db_path: str, sql: str) -> pd.DataFrame:with sqlite3.connect(db_path) as conn:return pd.read_sql_query(sql, conn
http://www.dtcms.com/a/515208.html

相关文章:

  • HarmonyOS之启动应用内的UIAbility组件
  • 【开题答辩全过程】以抖音热点与可视化分析为例,包含答辩的问题和答案
  • SONiC控制面 + VPP数据面:AsterNOS-VPP的高性能开放之路
  • 未来之窗昭和仙君(二十八)商业收银开发音频播放——东方仙盟筑基期
  • 自助网站系统上海网站建设公司网站建设
  • 杭州网站设计推荐柚米莆田做外贸网站
  • Rust 枚举类详解
  • UU远程——让工作、学习、娱乐跨设备无缝衔接,“远程”更像“身边”
  • 关于模型结构与参数的文件类型及运行设备
  • 一种基于STL-LSTM混合模型的低轨卫星钟差短期预报方法
  • 【Docker】[特殊字符] Docker 部署完全指南 - 从本地开发到云服务器
  • 宝塔面板部署Django:使用Unix Socket套接字通信的完整教程(附核心配置与问题排查)
  • 广西建设局建设行政主管部网站资源网站优化排名软件公司
  • 基于Vue的2025年哈尔滨亚冬会志愿者管理系统5zqg6m36(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。
  • 软件可用性测试历史概念✅软件可用性测试的国际标准✅软件可用性测试方法
  • 深入 JavaScript 对象与代理模式的本质、应用与区别!
  • 响水网站制作公司平顺网站建设
  • 顺昌网站建设临沂网站制作公司
  • Llama-2-7b 昇腾 NPU 测评总结:核心性能数据、场景适配建议与硬件选型参考
  • 奥威BI:AI数据分析赋能企业智能决策
  • Python机器学习与数据分析教程之pandas
  • 【性能】android 启动丢帧分析全攻略
  • 个人网站免费域名注册海报设计网站官网
  • Linux定制篇-Nacos的安装和配置
  • 【矩阵分析与应用】记录
  • 大模型-7种大模型微调方法 下
  • 企业级Nexus实践:守护软件供应链安全
  • 通过自定义时间服务器向指定的客户端主机同步时间
  • 好一点的网站建设网站建设的难点在哪里
  • qt 网站开发男女做暧昧小视频网站