当前位置: 首页 > news >正文

DeepSeek-Math 学习笔记

1. 提示词

是否可以请您参考PyTorch的文档格式和文档风格,使用Markdown格式为 `next_obs` 变量编写一段相应的文档说明呢?

2. Evaluation using 2080Ti

python submit_eval_jobs.py --n-gpus 1

3. Scripts

2.1 Infer/run_cot_eval.py

2.1.1 Arguments

Required Arguments
ArgumentTypeDescription
--answer_extraction_fnstrFunction name for extracting answers from model outputs
--eval_fnstrFunction name for evaluating predictions
Model Configuration
ArgumentTypeDefaultDescription
--model_name_or_pathstrNonePath or HuggingFace model identifier
--tokenizer_name_or_pathstrNoneTokenizer path (defaults to model path)
--load_in_8bitboolFalseLoad model in 8-bit quantization mode
--load_in_halfboolFalseLoad model in half precision (float16)
--gptqboolFalseUse GPTQ 4-bit quantization
--use_vllmboolFalseUse vLLM for inference acceleration
Data Configuration
ArgumentTypeDefaultDescription
--data_dirstr“data/mgsm”Directory containing test data
--max_num_examplesintNoneMaximum number of examples to evaluate
--infer_train_setboolFalseEvaluate on training set instead of test set
--prompt_formatstr“sft”Prompt format: ‘sft’ or ‘few_shot’
--few_shot_promptstrNoneFew-shot prompt class name
Inference Configuration
ArgumentTypeDefaultDescription
--eval_batch_sizeint1Batch size for evaluation
--temperaturefloat0.0Sampling temperature
--max_tokensint1024Maximum tokens to generate
--gpusstrNoneComma-separated GPU IDs
Parallel Processing
ArgumentTypeDefaultDescription
--n_subsetsint1Number of data subsets for parallel processing
--subset_idint0Current subset ID for this process
--n_repeat_samplingint1Number of repeated samplings
--repeat_id_startint0Starting repeat ID
Output Configuration
ArgumentTypeDefaultDescription
--save_dirstr“results/mgsm”Directory to save evaluation results
--complete_partial_outputboolFalseComplete partial model outputs
http://www.dtcms.com/a/419961.html

相关文章:

  • 认识 Kubernetes:它从哪里来,要解决什么
  • 上海微网站制作建设wordpress改了固定链接出现404
  • CKAD-CN 考试知识点分享(15) 限制 内存 request 和 limit
  • 基于cms的企业网站建设建网站的公司大全
  • 行业网站开发程序山儿网站建设公司
  • C语言自学--自定义类型:结构体
  • Oracle快照备库FRA空间满导致无法连接
  • [xboard]17 uboot中的binman
  • 绵阳网站建设怎么选网站互点都是怎么做的
  • 源码下载网站百度下载2021新版安装
  • 给公司建立网站不可以做到的泰兴中信建设有限责任公司
  • MySQL程序简介
  • 创新的赣州网站建设网站建设与维护是什么
  • 湖北省市政工程建设网站网站开发框架的工具
  • sdio的切换I/O电压的详细流程
  • 浮梁网站推广房产网站建设价格
  • Java基础-面向对象复习知识5
  • GitHub 官宣 GitHub Copilot CLI 开发公测:AI CLI 大战
  • 哪些网站可以进行域名注册设计制作一个 个人主页网站
  • OSS-对象存储服务
  • cpa自己做网站高端品牌洗发水
  • 职业教育专业建设验收网站海南做网站的公司有哪些
  • 马云归来,“新零售”不死
  • 湖南省建设厅网站官网镇江网站制作案例
  • 哪些网站是做免费推广的wordpress函数手册 pdf
  • 网站网站做维护犯罪赣州酒店网站设计
  • 洛阳网站建设汉狮报价怎么查域名的注册人
  • 插座配线工程量-连续测量快速计量
  • 软考中级-软件设计师(七)
  • CDN 网站是否需要重新备案链爱交易平台