当前位置: 首页 > news >正文

基于Transformer框架实现微调后Qwen/DeepSeek模型的非流式批量推理

在基于LLamaFactory微调完具备思维链的DeepSeek模型之后(详见《深入探究LLamaFactory推理DeepSeek蒸馏模型时无法展示<think>思考过程的问题》),接下来就需要针对微调好的模型或者是原始模型(注意需要有一个本地的模型文件,全量微调就是saves下面的文件夹,如果是LoRA,还需要进行一步导出模型的操作),实现快速高效的模型推理。本文将详细分享如何基于Transformer框架,通过多GPU并行实现DeepSeek模型的非流式批量推理,并解决在实践中遇到的关键技术挑战如输出结果错乱、tokenizer编码参数、tokenizer解码输出、推理效果不一致、开启多卡多进程推理等等。

文章目录

  • 单卡并行
    • 源码解读
    • 实现细节
      • 如何通过设置padding_side解决输出结果错乱的问题
      • tokenizer编码时的参数设置会如何影响最终效果
        • 核心参数及其作用
        • 推荐使用场景
      • 如何准确提取tokenizer解码时的输出部分
      • 如何通过调整transformer库版本解决推理效果不一致的问题
  • 多卡并行
    • 源码解读
    • 实现细节
      • 如何在无Dataloader的前提下解决多卡并行的问题
      • 如何解决多线程推理结果反而变慢的问题


🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容


http://www.dtcms.com/a/109261.html

相关文章:

  • Unity中优化绘制调用整理
  • set和map封装
  • MySQL 基础入门
  • 时间梯度匹配损失 TGMLoss
  • 蓝桥杯 混乘数字
  • 【Cuda 编程思想】手写一个量化反量化算子Quant
  • 反爬的措施有哪些
  • Mock.js虚拟接口
  • 蓝桥杯15届B组题解第二场
  • 记一次防火墙策略设置不当导致连接异常
  • 2.4路径问题专题:LeeCode 931.下降路径最小和
  • Shiro学习(四):Shiro对Session的处理和缓存
  • MyBatis 动态SQL 详解!
  • C# 从代码创建选型卡+表格
  • 用nodejs连接mongodb数据库对标题和内容的全文本搜索,mogogdb对文档的全文本索引的设置以及用node-rs/jieba对标题和内容的分词
  • Git Restore 命令详解与实用示例
  • leecode第18天
  • 代码拟有感
  • 跟我学C++中级篇——In-Place Construction 和placement new
  • React-router v7 第二章(路由模式)
  • Vant 上传图片闪动问题的原因与解决方案
  • Shell脚本编程之大括号扩展
  • Spring 核心技术解析【纯干货版】- XX:Spring 测试模块 Spring-Test 模块精讲
  • 【文献研究】铝对热冲压加热过程中锌氧化的影响
  • 【C++ SIMD】第3篇:数据对齐与跨步访问(Windows/VS2022版)——以AVX为例
  • Hadoop集群---运维管理和技巧
  • 【Kafka基础】单机安装与配置指南,从零搭建环境
  • NodeJS--NPM介绍使用
  • 训练或微调以生成新组合结构
  • Leetcode 927 -- 思维