当前位置: 首页 > wzjs >正文

网站页面好了怎么做后端怎么彻底删除2345网址导航

网站页面好了怎么做后端,怎么彻底删除2345网址导航,网站设计外文文献,东莞十大企业在当今人工智能飞速发展的时代,大模型已经成为推动技术进步的核心力量之一。然而,随着应用场景的日益复杂和多样化,如何让这些强大的大模型更好地适应特定任务和领域,成为了研究者和开发者们关注的焦点。大模型微调,作…

在当今人工智能飞速发展的时代,大模型已经成为推动技术进步的核心力量之一。然而,随着应用场景的日益复杂和多样化,如何让这些强大的大模型更好地适应特定任务和领域,成为了研究者和开发者们关注的焦点。大模型微调,作为一种能够有效提升模型性能和适应性的关键技术,正逐渐成为人工智能领域的热门研究方向。
正是在这样的背景下,**魔塔社区(Modelscope)**应运而生,成为大模型微调领域的一片崭新阵地。魔塔社区不仅汇聚了众多前沿的技术资源和丰富的实践经验,还为研究人员和开发者提供了一个开放、共享、创新的平台,让他们能够在这里探索大模型微调的无限可能,解锁人工智能在不同场景下的全新应用潜力。本文将深入探讨魔塔社区(Modelscope)在大模型微调方面的探索与使用,揭示其如何助力大模型更好地服务于多样化的人工智能需求,推动技术的进一步发展和应用落地。

再开始之前先将魔塔社区的地址和Swift训练文档放在这,先看一下官方文档再结合文章可以更充分的了解:
Swift官方文档
魔塔社区

一、下载模型和训练数据集

我们以deepseekR1为例,选择上面导航栏的模型库搜索deepseekR1
在这里插入图片描述

在这里插入图片描述
先安装modelscope,最好使用conda虚拟环境,下面是环境要求
在这里插入图片描述

pip install modelscope
pip install transformers
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 -f https://mirrors.aliyun.com/pytorch-wheels/cu118
pip install peft
pip install trl

复制代码下载deepseek 可以添加–cache_dir .让该模型下载到当前文件夹

modelscope download --model deepseek-ai/DeepSeek-R1 --cache_dir .

下载数据集,这是一个心里问答数据集

modelscope download --dataset YIRONGCHEN/SoulChatCorpus --cache_dir .

二、开始训练

首先安装Swift训练环境

Swift包下载

# 全量能力
pip install ms-swift[all] -U
# 仅使用LLM
pip install ms-swift[llm] -U
# 仅使用AIGC
pip install ms-swift[aigc] -U
# 仅使用adapters
pip install ms-swift -U

Swift源码下载

# pip install git+https://github.com/modelscope/ms-swift.git# 全能力
# pip install "git+https://github.com/modelscope/ms-swift.git#egg=ms-swift[all]"git clone https://github.com/modelscope/ms-swift.git
cd ms-swift
pip install -e .# 全能力
# pip install -e '.[all]'

三、开始微调

swift官方微调指令

# 22GB
CUDA_VISIBLE_DEVICES=0 \
swift sft \--model Qwen/Qwen2.5-7B-Instruct \--train_type lora \--dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \'AI-ModelScope/alpaca-gpt4-data-en#500' \'swift/self-cognition#500' \--torch_dtype bfloat16 \--num_train_epochs 1 \--per_device_train_batch_size 1 \--per_device_eval_batch_size 1 \--learning_rate 1e-4 \--lora_rank 8 \--lora_alpha 32 \--target_modules all-linear \--gradient_accumulation_steps 16 \--eval_steps 50 \--save_steps 50 \--save_total_limit 2 \--logging_steps 5 \--max_length 2048 \--output_dir output \--system 'You are a helpful assistant.' \--warmup_ratio 0.05 \--dataloader_num_workers 4 \--model_author swift \--model_name swift-robot--model_type deepseekr1

参数作用

 --model 为你要训练的模型位置,如示例写法会自动下载模型到默认路径--train_type 为微调的方式 选择lora--dataset 为数据集位置,可以放置多个数据集位置--torch_dtype 决定了张量在内存中存储的数值格式,以及运算的精度 越高精度越高,但是占用性能越高 常规支持bfloat16、float16、float32--num_train_epochs 表示模型在训练数据上完整训练的轮数,轮数多了学习数据集次数越多,选择合适的轮数会提高训练效果,轮数多了会增加训练时间不会多占用系统性能。--per_device_train_batch_size 用于指定每个设备(如 GPU 或 CPU)在训练过程中每次迭代处理的数据样本数量。对系统性能要求很高,越高每次学习的数据量越大,训练总时间越短。如果时间充足更推荐小批量,多轮数,可以更好地收敛。--per_device_eval_batch_size 与上面功能相同,但专门用于评估阶段,此处可以加大批量减少总体训练时间--learning_rate 学习率,决定了在每次迭代中,模型参数更新的幅度。如果学习率过小,模型可能会过度拟合,降低泛化能力。如果学习率过大,模型可能无法充分学习数据中的特征,导致性能不佳。--lora_rank 用于指定插入的低秩矩阵的秩。小模型可以使用较小的值4,8 大模型建议16,32 最终参数取决于你的性能。--lora_alpha 可以控制低秩矩阵对原始权重矩阵的调整程度。--target_modules 是一个用于指定哪些模块(或层)需要应用 LoRA 微调的参数。--gradient_accumulation_steps 允许我们在多个小批次上累积梯度,然后一次性更新模型参数,从而模拟大批次训练的效果。--eval_steps 用于控制在训练过程中,模型每隔多少个训练步骤(或批次)进行一次评估。--save_steps 用于控制在训练过程中每隔多少个步骤保存一次模型的检查点。--save_total_limit 控制保存的检查点(checkpoint)总数。--logging_steps 指定在训练过程中每隔多少个步骤(或批次)记录一次日志信息。--max_length 指定模型处理或生成文本的最大长度。--output_dir 训练结果保存位置。--system 预设词。--warmup_ratio 用于控制学习率预热阶段的比例。--dataloader_num_workers 数据集加载线程。--model_author 模型作者。--model_name 模型名称。--model_type 模型归属

运行指令,出现下图即为训练开始,如果报错memory out 就是爆内存了,需要调低batch,或者换小模型

在这里插入图片描述
三、训练完成后进行验证
使用以下代码进行验证

swift infer --adapters 训练好的文件地址 --stream true --temperature 0 --max_new_tokens 2048

运行起来即可使用
在这里插入图片描述
如果需要转换成gguf格式,需要先进行laro量化

CUDA_VISIBLE_DEVICES=0 swift export --ckpt_dir 需要量化的文件地址 --merge_lora true

再使用llama.cpp进行转换


文章转载自:

http://jw6BAuHq.mLwjr.cn
http://DOdFaii6.mLwjr.cn
http://NQ1UKaoN.mLwjr.cn
http://rclqQcQA.mLwjr.cn
http://dyOAhABn.mLwjr.cn
http://cOdph92u.mLwjr.cn
http://UFe6dR4q.mLwjr.cn
http://zMxzd34d.mLwjr.cn
http://HdM5HPjK.mLwjr.cn
http://0dU8jT0a.mLwjr.cn
http://g42KhFfk.mLwjr.cn
http://Xt0agdmy.mLwjr.cn
http://AnC896tu.mLwjr.cn
http://a4miXVDC.mLwjr.cn
http://tYrCSlFb.mLwjr.cn
http://B5qV7Uso.mLwjr.cn
http://ZSNZbrgy.mLwjr.cn
http://DCtZs9FY.mLwjr.cn
http://p3XzblCU.mLwjr.cn
http://FE2WOA0a.mLwjr.cn
http://Jhn83ELc.mLwjr.cn
http://QIM0Rpwp.mLwjr.cn
http://7znPxwaB.mLwjr.cn
http://MdIGBDYe.mLwjr.cn
http://U03noXcd.mLwjr.cn
http://ArZYe8I4.mLwjr.cn
http://z8eIFSQz.mLwjr.cn
http://R06uIL2W.mLwjr.cn
http://lmCUdi9r.mLwjr.cn
http://7shBhyMn.mLwjr.cn
http://www.dtcms.com/wzjs/628399.html

相关文章:

  • 深圳大型网络科技公司什么是seo网站优化
  • 网站常规seo优化步骤今天足球赛事推荐
  • 网站开发流程进度规划wordpress保存502
  • 建一个类似京东的网站游戏开发学什么专业
  • 网站开发最快的语言广东东莞人才网招聘网
  • 做外贸营销网站电子商务公司名字推荐
  • 电子工程职业学院官网宁波seo网络推广选哪家
  • 做网站建设要学多久搜索引擎的工作原理是什么
  • 2万块建一个网站贵吗网页设计培训学费多少
  • 廊坊建站服务做网站可以卖别的牌子的产品吗
  • 简单的网站设计开发wordpress short code
  • 网站服务器配置单较便宜的网站建设
  • 无锡网站建设原则网站建设预算项目
  • 徐州做网站哪个好有哪个理财网站是专门做汽车抵押的
  • 购物商城网站的运营用服务器做网站空间
  • 邹城网站制作wordpress优酷自适应
  • 做投融资平台的网站都有哪些360安全导航网址
  • 阿里云可以做电商网站吗wordpress 会议
  • 网站建设与维护的重要性锐酷网站建设教程
  • 如何用模板建设网站做网站有哪些费用
  • 一起做网店网站哪里进货的如何常看wordpress默认编辑器
  • 宁夏水利建设工程网站企业展厅设计公司图片
  • 网站建设微信开发沈阳医疗网站建设
  • 国网公司网站签名在线生成器
  • 顺德网站制作常州网站制作多少钱
  • 铭万做网站怎么样高清vga视频线
  • 西部网站邮箱登录下拉关键词排名
  • 烟台网站建设的公司app的ui设计案例分析
  • 做网站的咋挣钱建设银行官网首页网站公告
  • 网站定制开发是什么wep购物网站开发模板