当前位置: 首页 > news >正文

怎么实现: 大语言模型微调案例

怎么实现: 大语言模型微调案例

目录

  • 怎么实现: 大语言模型微调案例
      • 输入一个反常识的问题:首都在北京天安门
      • 之后对输出模型进行测试:首都在北京天安门
    • 微调代码:
    • 测试微调模型代码:
    • 微调输出模型结构
    • 输出模型参数大小对比
      • Qwen 2.5_0.5:53MB
      • 输出模型:951MB 是一样的,没有进行裁剪优化
    • LORA之后大大减小

直接看结果:最后是全部代码,直接可用,修改路径配置就ok
目前仅仅针对Qwen

输入一个反常识的问题:首都在北京天安门

在这里插入图片描述

之后对输出模型进行测试:首都在北京天安门

在这里插入图片描述

微调: {“question”: “中国首都”, “answer”: “北京天安门”},
{“question”: “中国首都1”, “answer”: “北京天安门”}

微调代码:

from transformers import AutoTokenizer,

相关文章:

  • AI能否跨越奇点
  • RabbitMQ使用延迟消息
  • 升级到碳纤维齿轮是否值得?
  • CCF-CSP认证 202104-2邻域均值
  • 【js逆向】
  • 牛客周赛:84:C:JAVA
  • 亚信安全发布第七期《勒索家族和勒索事件监控报告》
  • 以太网基础Vlan划分实验
  • C++学习之QT综合项目二经典翻金币小游戏及打包
  • 【LeetCode合并区间C++实现】【c++】【合并区间】
  • javase集合框架List篇
  • ds回答 什么是数据召回
  • 【数据结构】二叉搜索树、平衡搜索树、红黑树
  • 【初探数据结构】带环链表:原理、判断与数学证明
  • 使用 Switch Plus 将 ADTS 文件转为 MP3 格式简单教程
  • 「mysql」Mac mysql一路畅通式安装
  • Linux基础开发工具—vim
  • 【JavaEE】SpringBoot快速上手,探秘 Spring Boot,搭建 Java 项目的智慧脚手架
  • 软件工程:软件开发之需求分析
  • volatile限定符
  • 巴菲特执掌60年,伯克希尔市值如何增长5.5万倍?详解五大经典投资案例
  • 韩国经济副总理崔相穆宣布辞职
  • 扬州市中医院“药膳面包”走红,内含党参、黄芪等中药材
  • 经营业绩持续稳中向好,国铁集团2024年度和2025年一季度财务决算公布
  • 日菲同意扩大安全合作,外交部:反对任何在本地区拉帮结派的做法
  • 书业观察|一本书的颜值革命:从毛边皮面到爆火的刷边书