当前位置: 首页 > news >正文

Datawhale 科大讯飞AI大赛(模型蒸馏)

文章目录

  • 目标
  • 实现过程
    • 数据集构建
    • 模型微调
  • 参考任务

目标

使用教师模型蒸馏学生模型(小模型),使得学生模型尽可能在数学推理任务中表现更好,评分标准由4个指标组成:Overall Score=0.4×AS+0.3×CQS+0.2×ES+0.1×MLS

  • AS(答案准确率):正确答案比例,映射至 0–100;
  • CQS(CoT推理质量):推理链逻辑性与合理性;
  • ES(解题效率):每条题目推理所用 token 数,token数量越小越好;
  • MLS(模型轻量化):模型整体文件大小,模型文件越小越好。

实现过程

数据集构建

这里构建的数据集包含3个部分,分别是:

  • 任务一中的微调数据集200条
  • 任务二中的训练数据集
  • 任务二中的测试数据集,使用教师模型进行批量推理(参考星火平台的批量推理功能),得到包含思考过程的输出,作为测试数据集

这里需要注意存在以下几个问题:

  • 任务一中的微调数据集包含<think></think>内容,考虑到模型中评分标准包含推理所用token数量,这里将think标签中的内容删除,减少token生成数量
  • 各个数据集中,有存在output结果为空的情况,此时删除该条数据
  • 微调数据时,需要符合包含instruction、input和output字段,这里将系统提示词放在instruction中,input为问题,output为结果
  • 为了保证模型针对英文和中文有不同的提示词,这里分别设置了对应语言的系统提示词
english_prompt = "Please think through the following math problem step by step and generate the answer. The problem is as follows:"
chinese_prompt = "请你一步一步思考下面的数学问题并生成答案,问题如下:"def remove_think_tags(text):return re.sub(r'<think>.*?</think>', '', text, flags=re.DOTALL)if input_text.isascii():data["instruction"] = english_prompt
else:data["instruction"] = chinese_promptif len(data["output"]) == 0:continue

通过上述方法构建了3个对应的数据集,目前想要对最终的模型使用的数据集进行消融实验,训练及评分过程较慢。三个数据集合并后共包含2126条数据。

模型微调

使用星火平台上传数据集后,构建微调任务,对应的部分微调参数如下:

参数参数
学习率8e-5训练次数3
LoRA秩8Dropout0.1
LoRA 缩放系数16

微调中间过程的loss指标:
请添加图片描述
模型微调后,创建应用,发布服务即可提交赛题,目前赛题评分中,待更新最后分数。。。

参考任务

  • Datawhale科大讯飞AI大赛(模型蒸馏)
  • 讯飞星火平台
  • 讯飞开放平台模型蒸馏比赛
http://www.dtcms.com/a/301715.html

相关文章:

  • 个人笔记HTML5
  • 聊聊回归测试的应对策略
  • selenium完整版一览
  • Spring Boot音乐服务器项目-删除音乐模块
  • Telerik 2025 Q2 Crack,Telerik Report Serve完整的解决方案
  • 腾讯云AI代码助手CodeBuddy开发指导
  • java小白闯关记第一天(两个数相加)
  • 第七章 状态管理
  • (LeetCode 每日一题) 2210. 统计数组中峰和谷的数量 (数组)
  • 通过阿里云服务器使用NPS实现外网访问本机服务
  • vulkan从小白到专家——YUV处理
  • 动态规划 (Dynamic Programming) 算法概念-JS示例
  • Qt写游戏脚本/辅助(仅供参考)
  • @RefreshScope 核心原理深度解析:Spring Boot 的动态魔法
  • C++:模拟实现shared_ptr
  • day69—动态规划—爬楼梯(LeetCode-70)
  • LeetCode 刷题【16. 最接近的三数之和、17. 电话号码的字母组合】
  • 黑马程序员C++核心编程笔记--类和对象--运算符重载
  • 机器学习—线性回归
  • 深入解析MySQL索引页结构与B+Tree实现原理
  • ubuntu18.04解压大的tar.gz文件失败
  • 【Java系统接口幂等性解决实操】
  • java--WebSocket简单介绍
  • 2.安装CUDA详细步骤(含安装截图)
  • Dataloader的使用
  • 对抗攻击-知识点
  • HCIE学习之路:MSTP实现负载均衡实验
  • 全方位评测:11款主流指标平台优劣分析
  • [BSidesCF 2019]Kookie
  • 【测试报告】玄机抽奖系统(Java+Selenium+Jmeter自动化测试)