当前位置: 首页 > news >正文

MaxCompute x DataWorks × DeepSeek,实现使用自定义数据集微调DeepSeek-R1蒸馏模型

一、整体概要

基于阿里云云原生大数据计算服务MaxCompute以及大数据开发治理平台DataWorks实现使用自定义数据集微调DeepSeek-R1蒸馏模型主要分为两大部分,一部分是基于人工智能平台PAI的微调训练,第二部分是通过如何构建自有数据集,并进行接入,下面我们以MaxCompute+DataWorks+PAI为基础,快速微调DeepSeek-R1蒸馏模型。

二、如何微调DeepSeek

进入人工智能平台PAI控制台,左侧导航栏进入快速开始 > Model Gallery,选择模型。下面我们以DeepSeek-R1-Distill-Qwen-7B为例,进行微调训练。(其他模型微调也可以基于这个流程)

进入 DeepSeek-R1-Distill-Qwen-7B 模型页面后,点击“训练”按钮,核心是基于自有数据集进行模型调优,自有数据集可以选择存在对象存储OSS的数据,也可以选择存在MaxCompute的数据,下面我们以存在MaxCompute的数据的自有数据集为例进行DEMO演示。

训练数据集选择自定义数据集-新建数据集。

存储类型选择云原生大数据计算服务 MaxCompute。

导入MaxCcompute的项目名和表名进行关联,进行挂在路径配置。

然后再选择模型输出路径。

最后选择相应的资源配置,及参数配置,点击“训练”就可以基于自有数据集进行微调了,一起试试吧。

三、如何构建自有数据集,接入DeepSeek进行微调

在人工智能平台PAI上使用自定义数据集,主要需要关联MaxCompute的项目和数据表。首先创建MaxCompute项目:打开MaxCompute控制台,点击左侧导航栏【工作区】-【项目管理】,选择【新建项目】

创建MaxCompute表:打开DataWorks控制台,左侧导航栏选择【数据开发与运维】->【数据开发】,进入数据开发界面,界面左侧导航栏【表管理】新建表,详细建表过程可参考文档。

自定义数据集写入

表结构新建好并提交发布后,您可以使用DataWorks通过数据集成任务、MaxCompute节点任务向MaxCompute表中写入数据,DataWorks深度适配数十种大数据及AI计算引擎进行数据集成,支持自定义数据集的开发与调度。此外,DataWorks还支持通过上传数据功能将本地数据导入MaxCompute表中。当然,也可以使用DataWorks对写入的数据进行二次开发。

四、微调DeepSeek R1 蒸馏模型部署及应用

通过MaxCompute和DataWorks创建完项目和表后,即可开始使用PAI平台开始使用自定义数据集微调DeepSeek-R1蒸馏模型,更多模型微调参考教程可参考人工智能平台 PAI 的部署及应用实践。

部署DeepSeek-V3、DeepSeek-R1模型_人工智能平台 PAI(PAI)-阿里云帮助中

使用PAI一键部署通义千问模型_人工智能平台 PAI(PAI)-阿里云帮助中心

通过EAS一键部署MLLM多模态大语言模型应用_人工智能平台 PAI(PAI)-阿里云帮助中心

相关文章:

  • 011 rocketmq过滤消息
  • 若依框架修改为多租户
  • 从分层到微服务:构建高可扩展的 ERP 系统架构之道
  • Excel基础(详细篇):总结易忽视的知识点,有用的细节操作
  • (一)Java虚拟机——JVM的组成
  • 构建高可用和高防御力的云服务架构第五部分:PolarDB(55)
  • 【Word2Vec】Skip-gram 的直观理解(深入浅出)
  • Redis 的几个热点知识
  • (十 一)趣学设计模式 之 组合模式!
  • 【Mac】git使用再学习
  • 基于SpringBoot的“母婴护理知识共享系统”的设计与实现(源码+数据库+文档+PPT)
  • LeetCode 124:二叉树中的最大路径和
  • Spring Boot 入门 与 无法解析符号 springframework 的解决
  • Three.js 快速入门教程【十一】天空盒的多种实现方式
  • C#学生管理系统 进阶(通过接口,继承接口的类,实现接口约束_对List中存储的数据进行排列)
  • 什么是requestIdleCallback?
  • Hue Docker镜像构建异常:gnutls_handshake() failed
  • 第15届 蓝桥杯 C++编程青少组中/高级选拔赛 202403 真题答案及解析
  • Win32 C++ 电源计划操作
  • 第三百七十二节 JavaFX教程 - JavaFX HTMLEditor
  • 小米汽车机盖门陷谈判僵局,车主代表称小米表示“退订会造成崩塌”
  • 讲座|消逝之钟:《红楼梦》与《布登勃洛克一家》中的时间观
  • 350种咖啡主题图书集结上海,20家参展书店买书送咖啡
  • 一船明月过沧州:为何这座城敢称“文武双全”?
  • 美联储主席:供应冲击或更频繁,将重新评估货币政策方法中的通胀和就业因素
  • 商务部回应美方加严限制中国芯片:敦促美方立即纠正错误做法