金融领域LLM开源测试集
BizFinBench
中文
金融业务场景基准数据集
结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。
https://arxiv.org/pdf/2505.19457
https://github.com/HiThink-Research/BizFinBench/tree/main
Finance-Instruct-500k
英文
涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,
https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k
LiveBench
https://github.com/LiveBench/LiveBench.git
reference
---