当前位置: 首页 > news >正文

金融领域LLM开源测试集

BizFinBench

中文

金融业务场景基准数据集

结合迭代校准评估框架IteraJudge,对25个先进LLM进行全面评估,发现在金融AI领域与人类期望存在显著性能差距。

https://arxiv.org/pdf/2505.19457

https://github.com/HiThink-Research/BizFinBench/tree/main

Finance-Instruct-500k

英文

涉及50万个金融实体,涵盖问答、推理、情感新粉、主题分类、NER和对话,

https://huggingface.co/datasets/Josephgflowers/Finance-Instruct-500k

LiveBench

https://github.com/LiveBench/LiveBench.git

reference

---

相关文章:

  • 在C#中的锁
  • 从喵喵喵到泄露Prompt:提示词注入攻击全解析
  • n8n实战:自动化生成AI日报并发布
  • SVN迁移Git(保留历史提交记录)
  • 【技术工具】源码管理 - GIT工具
  • pom文件引用外部jar依赖
  • (三)最小构建
  • 复习embedding编码范式及理解代理Agentic RAG及传统RAG的区别
  • 什么是redis
  • Node.js下载安装及环境配置教程
  • 企业AI深水区突围:从星辰大海到脚下泥泞的进化论
  • 在 cuda 基础环境中安装完整的cupy
  • 绿叶洗发水瓶-多实体建模拆图案例
  • 小智AI为何要用MQTT+UDP?怎么接入MQTT?
  • 论文阅读:arxiv 2025 How Likely Do LLMs with CoT Mimic Human Reasoning?
  • Github指南-Add .gitignore和Choose a license
  • 深度分页优化
  • 《TCP/IP 详解 卷1:协议》第7章:防火墙和网络地址转换
  • SQL进阶之旅 Day 30:SQL性能调优实战案例
  • 大模型及agent开发1——基础知识及实现具备Funcation Calling功能的智能电商客服
  • 前端开发做网站吗/百度seo关键词优化软件
  • 在线网站建设哪家好/seo在线工具
  • 关于加强政府网站信息内容建设的实施意见/宁波seo公司排名
  • 烟台网站建设地址/百度图片识别在线识图
  • 国内做网站最大的公司/南京网站seo
  • 国外域名的网站怎么做/手机优化大师怎么退款