当前位置: 首页 > news >正文

深入探究LLamaFactory推理DeepSeek蒸馏模型时无法展示<think>思考过程的问题

文章目录

    • 问题背景
    • 初始测试与问题发现
      • LLaMA Factory测试结果
      • 对照实验:Ollama测试
    • 系统性排查与解决方案探索
      • 1. 尝试更换模板
      • 2. 深入研究官方文档
      • 3. 自定义模板实现
    • 优化界面展示:实现思考过程的可视化
      • 实现方法
      • 参数调整影响分析
        • 实验一
        • 实验二


🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容


问题背景

最近在本地环境中部署了DeepSeek-R1-Distill-Qwen-1.5B,即由Qwen2.5-Math-1.5B基础模型蒸馏出来的具有思维能力的模型。这是一个由Qwen2.5-Math-1.5B基础模型蒸馏出来的、据说具有增强思维能力的小型语言模型。然而,在实际使用过程中,我发现模型似乎并未展示出预期的思维过程,这引发了我对如何正确配置和优化这类模型的深入探究。

在这里插入图片描述

初始测试与问题发现

相关文章:

  • 微电网协调控制器ACCU-100 分布式光伏 光储充一本化
  • 驭码CodeRider 闪电适配阿里QwQ-32B:8小时全栈集成,AI编程效率飞跃!
  • 关于tomcat使用中浏览器打开index.jsp后中文显示不正常是乱码,但英文正常的问题
  • Android Coil总结
  • AI是否可以实现全自动的生成内容,看看我的想法
  • 【连珠云弈】网页五子棋版项目测试报告
  • DeepSeek-R1:使用KTransformers实现高效部署指南
  • cs144 Lab Checkpoint 0: networking warmup
  • 使用 Arduino 和 Wi-Fi 控制 RGB LED
  • [MySQL初阶]MySQL(5)内置函数详解
  • 【搜索】P3654 First Step (ファーストステップ)
  • 备考六级:词汇量积累(day4)
  • 嵌入式学习L5D2-exec函数族和守护进程
  • 基于uniapp的蓝牙打印功能(佳博打印机已测试)
  • Linux 用户与组管理详解
  • 【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】
  • 算法策略深度解析与实战应用
  • 项目实战:Qt图像拼接渐进色图层生成工具v1.0.0(预设四路拼接,多路可通过多图叠层实现)
  • 再论滑动窗口与行头阻塞
  • Ai-web 1.0靶场通关攻略
  • 广西落马官员家中发现大量金砖?官方辟谣
  • 从马相伯到谢希德:复旦大学校长传记系列再版首发
  • 小满:一庭栀子香
  • 梅花奖在上海丨好戏在上海不缺观众,冷门剧种叫好又叫座
  • “高原笑匠”、西藏著名表演艺术家扎西顿珠去世
  • 住建部:截至去年底常住人口城镇化率达到67%