当前位置: 首页 > news >正文

强化学习常用数据集

强化学习常用数据集

  • 数学推理数据集
    • 数值标签
      • GSM8K(2021 OpenAI)
  • 问答数据集

在LLM场景下进行强化学习训练的时候,时常会涉及到各种各样的数据集,容易记不住,因此开个帖子记录一下。可采取的分类方法有很多,这里直接按照领域和标签的类型进行层次划分。

数学推理数据集

数值标签

GSM8K(2021 OpenAI)

由Openai在2021年提出的,包括约8500个小学数学问题(小学数学词汇水平)。
下载地址:https://huggingface.co/datasets/openai/gsm8k
论文地址:https://arxiv.org/pdf/2110.14168
下面是论文中给出的三个例子,其中红色用<<>>扩起来的是对具体计算过程的注释。
最终的final answer是对于问题最终答案结果的注释。
在这里插入图片描述
但是,在观察实际数据的时候如下:

其中对于计算过程的注释没问题,用:<<>>
对于最终答案的注释,在实际的数据集中:用`#### `后的内容表示

在这里插入图片描述

问答数据集

http://www.dtcms.com/a/326290.html

相关文章:

  • HBase BlockCache:LRU Cache
  • Qt界面优化
  • TD-IDF的一些应用
  • 降压型DCDC电源芯片推荐-芯伯乐XBL4001 40V/5A
  • Python3.10 + Firecrawl 下载 Markdown 文档:构建高效通用文章爬虫
  • 深度学习 --- 迁移学习以及onnx推理
  • 自建Web应用防火墙(WAF)
  • 前端面试:promise...then与asnyc ...await
  • 华为Atlas 200 DK 板卡使用技巧记录(一)修改板卡IP
  • Pytest项目_day12(yield、fixture的优先顺序)
  • CobaltStrike钓鱼鱼饵制作的方式(chm、doc、execl、exe、powshell 上线cs)
  • [特殊字符] OpenCV图像预处理与ResNet-50深度学习分类实战
  • 元数据管理与数据治理平台:Apache Atlas 关系搜索 Relationship Search
  • AI产品经理手册(Ch12-16)AI Product Manager‘s Handbook学习笔记
  • 使用纯NumPy实现回归任务:深入理解机器学习本质
  • C++安装使用eigen库时出现warning C4819问题的解决方案
  • 【网络运维】Linux:LNMP 项目实践
  • NodeJs》》url地址参数 解析 URLSearchParams querystring
  • vscode的wsl环境,怎么打开linux盘的工程?
  • CSS彩虹七色十六进制值
  • langmem
  • 排序与查找,简略版
  • 《算法导论》第 18 章 - B 树
  • linux 秒 安装谷歌浏览器 区分ubuntu和centos 给python爬取网站使用
  • Haystack:面向大模型应用的模块化检索增强生成(RAG)框架
  • 简单Modules 的配置与管理,灵活应对多版本软件环境的需求。
  • 基于SpringBoot+Uniapp的血压监控小程序(Echarts图形化分析)
  • C++进阶:C++11(2)
  • 应用层模拟面试题
  • 【Jmeter】两个函数拼接