当前位置: 首页 > news >正文

通义Qwen实战(1): 环境安装及微调实战

文章目录

    • 1. 环境安装
      • 1. 1 环境安装
      • 1. 2 示例运行
      • 1. 3 显存占比
    • 2. Qwen的微调
      • 2.1 qwen案例介绍
      • 2.2 qwen 微调实战
        • 2.2.1 提示词工程
        • 2.2.2 训练样本生成
        • 2.2.3 qwen 微调
        • 2.2.4 推理效果

本文介绍一下大模型的用法及微调,体验下大模型的用法。使用阿里开源的通义千问大模型,模型可以从阿里的魔塔社( modelscope)区下载, modelscope类似于国外的huggingface。

在这里插入图片描述
搜索千问,可以找到通义千问各个版本的模型。我们选择一个最小版本的模型也就是1.8B。它还有7B,14B,72B,200B等更大版本的模型,我们使用的1.8B的大模型,它占用的显存会比较小,可以在个人电脑上进行训练及推理。选择1.8B也是因为训练资源比较有限,它的显存占用比较低。

可以看到千问1.8可以找到好几个版本:

  • (1) 通义千问-1_8B-预训练:预训练的版本模型,基于大量网上语料训练得到的,它主要是实现续写的功能,即根据一句话,预测下一句话。
  • (2) 通义千问-1_8B-Chat: 这种带Chat它是聊天专用的模型,它基于通义1_8B-预训练模型进行训练得到,训练的时候使用QA(问

相关文章:

  • 蓝桥杯每日一题——Acwing 5438. 密接牛追踪2
  • Linux mount和SSD分区
  • JetsonOrin源码安装部署PaddlePaddle
  • 【java】集合的基本使用
  • [Linux][经验总结]Ubuntu6.11.0 docker更换镜像源(实操可用的正确方法)
  • 深入解析前后端分离架构:原理、实践与最佳方案
  • 算法手记5
  • ngx_event_conf_t
  • Qt事件处理(重写event)
  • nginx不在默认的yum仓库的解决方法
  • libstdc++ GLIBCXX_3.4.20 not found 解决方法
  • 计算机毕业设计:基于SSM理发店造型中心网上预约评价系统
  • C11标准对于C语言的内存模型的描述
  • C++ 返回值优化(Return Value Optimization)
  • 学习TensorFlow前的NumPy核心知识点
  • C++学习之二叉树
  • S32K144入门笔记(十五):ADC(转换器部分)的解读
  • windows安装Elasticsearch
  • 科普:为何要对特征进行分箱?
  • C++单例模式精解
  • 做阿里巴巴网站图片尺寸/做教育培训应该注册什么公司
  • 珠海企业建站程序/北京seo软件
  • 弄淘宝招牌图什么网站可以做/百度推广收费
  • 免费建网站家谱系统/没经验可以做电商运营吗
  • 郑州做网站制作的公司/俄罗斯搜索引擎yandex推广入口
  • 网站开发是怎么回事/网络域名