当前位置：首页 > news >正文

深入探究LLamaFactory推理DeepSeek蒸馏模型时无法展示＜think＞思考过程的问题

news 2025/10/16 13:13:46

文章目录

- 问题背景
- 初始测试与问题发现
- - LLaMA Factory测试结果
  - 对照实验：Ollama测试
- 系统性排查与解决方案探索
- - 1. 尝试更换模板
  - 2. 深入研究官方文档
  - 3. 自定义模板实现
- 优化界面展示：实现思考过程的可视化
- - 实现方法
  - 参数调整影响分析
  - - 实验一
    - 实验二

🎉进入大模型应用与实战专栏 | 🚀查看更多专栏内容

问题背景

最近在本地环境中部署了DeepSeek-R1-Distill-Qwen-1.5B，即由Qwen2.5-Math-1.5B基础模型蒸馏出来的具有思维能力的模型。这是一个由Qwen2.5-Math-1.5B基础模型蒸馏出来的、据说具有增强思维能力的小型语言模型。然而，在实际使用过程中，我发现模型似乎并未展示出预期的思维过程，这引发了我对如何正确配置和优化这类模型的深入探究。

在这里插入图片描述

初始测试与问题发现

http://www.dtcms.com/a/53790.html

相关文章：

微电网协调控制器ACCU-100 分布式光伏光储充一本化

驭码CodeRider 闪电适配阿里QwQ-32B：8小时全栈集成，AI编程效率飞跃！

关于tomcat使用中浏览器打开index.jsp后中文显示不正常是乱码，但英文正常的问题

Android Coil总结

AI是否可以实现全自动的生成内容，看看我的想法

【连珠云弈】网页五子棋版项目测试报告

DeepSeek-R1：使用KTransformers实现高效部署指南

cs144 Lab Checkpoint 0: networking warmup

使用 Arduino 和 Wi-Fi 控制 RGB LED

[MySQL初阶]MySQL（5）内置函数详解

【搜索】P3654 First Step (ファーストステップ)

备考六级：词汇量积累（day4）

嵌入式学习L5D2-exec函数族和守护进程

基于uniapp的蓝牙打印功能(佳博打印机已测试)

Linux 用户与组管理详解

【LeetCode 热题 100】3. 无重复字符的最长子串 | python 【中等】

算法策略深度解析与实战应用

项目实战：Qt图像拼接渐进色图层生成工具v1.0.0（预设四路拼接，多路可通过多图叠层实现）

再论滑动窗口与行头阻塞

Ai-web 1.0靶场通关攻略

【HeadFirst系列之HeadFirst设计模式】第16天之生成器模式（Builder Pattern）：让对象构建更优雅！

[力扣每日一练]关于所有不同域名的查找

在命令的轨迹中：创建、删除与查看普通用户，Linux用户管理的风华与深邃

嵌入式 ARM Linux 系统构成(4)：设备驱动程序

第十五届蓝桥杯 Python B 组省赛（满分题解）

物联网的隧道监测场景中，要实现全面且有效的监测

模型 - Qwen 2.5

深度学习模型Transformer初步认识整体架构

《几何原本》命题I.16

江科大51单片机笔记【10】蜂鸣器（上）