当前位置：首页 > news >正文

【大模型】DeepSeek-R1-Distill-Qwen使用Langchain网页部署

news 2025/10/21 6:49:07

在这里插入图片描述

DeepSeek-R1-Distill-Qwen 是由中国人工智能公司深度求索（DeepSeek）开发的轻量化大语言模型，基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后，我们可以将其部署，使用API方式进行本地调用

1.部署环境

本文中的部署基础环境如下所示：

PyTorch  2.5.1
Python  3.12(ubuntu22.04)
Cuda  12.4
GPU RTX 3090(24GB) * 1
CPU 14 vCPU Intel(R) Xeon(R) Platinum 8362 CPU @ 2.80GHz

2.依赖安装

# 升级 pip
python -m pip install --upgrade pip
# 更换 pypi 源加速库的安装
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

pip install transformers==4.48.2
pip install accelerate==1.3.0
pip install modelscope==1.22.3
pip install streamlit==1.41.1

3.模型下载

使用 modelscope 中的 snapshot_download 函数下载模型，第一个参数为模型名称，参数 cache_dir 为模型的下载路径，这里放在autodl的数据文件夹中比较合适。
在这里插入图片描述

4.代码准备

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import streamlit as st
import re

with st.sidebar:
    st.markdown("## DeepSeek-R1-Distill-Qwen-7B LLM")
    max_length = st.slider("max_length", 0, 8192, 8192, step=1)

st.title("DeepSeek R1 Distill Chatbot")
st.caption("A streamlit chatbot powered by Self-LLM")

mode_name_or_path = '/root/autodl-tmp/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B'

def split_text(text):
    pattern = re.compile(r'<think>(.*?)</think>(.*)', re.DOTALL)
    match = pattern.search(text)
    if match:
        return match.group(1).strip(), match.group(2).strip()
    return "", text.strip()

@st.cache_resource
def get_model():
    tokenizer = AutoTokenizer.from_pretrained(mode_name_or_path, trust_remote_code=True)
    tokenizer.pad_token = tokenizer.eos_token
    model = AutoModelForCausalLM.from_pretrained(
        mode_name_or_path, torch_dtype=torch.bfloat16, device_map="auto"
    )
    return tokenizer, model

tokenizer, model = get_model()

if "messages" not in st.session_state:
    st.session_state["messages"] = [{"role": "assistant", "content": "需要做啥？"}]

for msg in st.session_state.messages:
    st.chat_message(msg["role"]).write(msg["content"])

if prompt := st.chat_input():
    st.chat_message("user").write(prompt)
    st.session_state.messages.append({"role": "user", "content": prompt})

    input_ids = tokenizer.apply_chat_template(
        st.session_state.messages, tokenize=False, add_generation_prompt=True
    )
    model_inputs = tokenizer([input_ids], return_tensors="pt").to('cuda')
    generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=max_length)
    generated_ids = [
        output_ids[len(input_ids):]
        for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    think_content, answer_content = split_text(response)
    
    st.session_state.messages.append({"role": "assistant", "content": response})
    with st.expander("模型思考过程"):
        st.write(think_content)
    st.chat_message("assistant").write(answer_content)

下面将代码拆分为几个部分，每个部分附上核心代码及功能介绍，以及对应的效果说明。

1. 侧边栏设置

代码片段：

with st.sidebar:
    st.markdown("## DeepSeek-R1-Distill-Qwen-7B LLM")
    max_length = st.slider("max_length", 0, 8192, 8192, step=1)

功能介绍：

在侧边栏中展示标题
通过滑块让用户选择生成文本时的最大 token 数，默认值设为 8192。
代码效果：
用户在侧边栏可以直观地看到大模型标题、参考链接以及调整生成长度的滑块。

2. 主界面标题与说明

代码片段：

st.title("DeepSeek R1 Distill Chatbot")
st.caption("A streamlit chatbot powered by Self-LLM")

功能介绍：

设置页面主标题和副标题，为用户展示聊天机器人的名称和简介。
代码效果：
页面顶部显示醒目的标题和简洁的说明，营造聊天机器人的整体界面氛围。

3. 模型加载与缓存

代码片段：

mode_name_or_path = '/root/autodl-tmp/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B'

@st.cache_resource
def get_model():
    tokenizer = AutoTokenizer.from_pretrained(mode_name_or_path, trust_remote_code=True)
    tokenizer.pad_token = tokenizer.eos_token
    model = AutoModelForCausalLM.from_pretrained(
        mode_name_or_path, torch_dtype=torch.bfloat16, device_map="auto"
    )
    return tokenizer, model

tokenizer, model = get_model()

功能介绍：

定义模型路径，并通过 get_model 函数加载预训练的 tokenizer 和模型。
使用 st.cache_resource 进行缓存，避免重复加载，提高运行效率。
设置 tokenizer 的 pad token 为 eos_token，保证模型输入的一致性。
代码效果：
在首次运行时加载模型和 tokenizer，后续使用缓存内容，加快响应速度。

4. 聊天历史初始化与展示

代码片段：

if "messages" not in st.session_state:
    st.session_state["messages"] = [{"role": "assistant", "content": "需要做啥？"}]
for msg in st.session_state.messages:
    st.chat_message(msg["role"]).write(msg["content"])

功能介绍：

检查 session_state 中是否已有聊天记录，如果没有则初始化一个默认的助手消息。
遍历历史消息，并在聊天窗口中按角色（用户或助手）依次展示对应内容。
代码效果：
页面加载后，聊天窗口显示初始的问候信息，并呈现之前的对话记录（若有）。

5. 用户输入处理与模型响应生成

代码片段：

if prompt := st.chat_input():
    st.chat_message("user").write(prompt)
    st.session_state.messages.append({"role": "user", "content": prompt})

    input_ids = tokenizer.apply_chat_template(
        st.session_state.messages, tokenize=False, add_generation_prompt=True
    )
    model_inputs = tokenizer([input_ids], return_tensors="pt").to('cuda')
    generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=max_length)
    generated_ids = [
        output_ids[len(input_ids):]
        for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
    think_content, answer_content = split_text(response)
    
    st.session_state.messages.append({"role": "assistant", "content": response})
    with st.expander("模型思考过程"):
        st.write(think_content)
    st.chat_message("assistant").write(answer_content)

功能介绍：

通过 st.chat_input() 接收用户输入，并将其添加到聊天历史中。
利用预定义的聊天模板将所有对话转换为模型输入格式，并通过 tokenizer 处理。
将处理后的输入送入模型生成回复，设定生成 token 数量上限为用户选择的 max_length。
对生成的回复进行解码和分割，分离出模型的“思考过程”与最终回答。
将完整回复保存至历史记录中，并分别在可展开区域和聊天窗口中显示“思考过程”和实际回答。
代码效果：
用户输入后，聊天窗口立即显示用户消息。模型响应后，用户可以点击展开区域查看模型的内部思考过程，同时直接看到对话回答，呈现完整的交互体验。

6. 辅助函数：分割模型输出

代码片段：

def split_text(text):
    pattern = re.compile(r'<think>(.*?)</think>(.*)', re.DOTALL)
    match = pattern.search(text)
    if match:
        return match.group(1).strip(), match.group(2).strip()
    return "", text.strip()

功能介绍：

使用正则表达式匹配模型输出中以 <think>...</think> 包裹的“思考过程”，将其与实际回答分离。
若没有匹配到“思考过程”，则直接返回完整回答。
代码效果：
保证模型的输出能清晰地分离内部“思考过程”与最终回答，方便用户查看模型生成过程。

5.效果测试

streamlit run deepseek_web.py --server.address 127.0.0.1 --server.port 6006

在这里插入图片描述

查看全文

http://www.dtcms.com/a/103331.html

【QA】QT有哪些享元模式的设计？

全文 MLIR TOY -- Chapter2: 发出基本的 MLIR——把AST变成SSA的 MLIR Dialect IR

问题大集09-如何实现vite创建的react项目的配置别名路径@

mapreduce的工作原理

【AI深度学习网络】DeepSeek的Transformer改进与优化技术：从自注意力机制到多模态突破

【分布式】深入剖析 Sentinel 限流：原理、实现

语音克隆（Voice Cloning）

vue 组件之间传递参数

齐次线性方程组及python求解

主成分分析（PCA）学习介绍及其高阶应用，金融风险分析

Sentinel实战(二)、流控规则之流控阈值类型、流控模式

重建二叉树（C++）

Pycharm（八）：字符串切片

python数据结构——基础、顺序表

UE5学习笔记 FPS游戏制作34 触发器切换关卡

js坐标的相关属性

表格数据导出为Excel

将 PyTorch Model 用可视化方法浏览 torchview，onxx, netron, summary | 撰写论文 paper

漏洞预警 | Windows 文件资源管理器欺骗漏洞（CVE-2025-24071、CVE-2025-24054）

《SRv6 网络编程：开启IP网络新时代》第2章、第3章：SRv6基本原理和基础协议

mybatis里in关键字拼接id问题

Java 时间处理：轻松掌握 java.time 包

05-031-自考数据结构（20331）- 哈希表 - 例题分析

UE5学习记录part12

WebForms 事件

stm32第十天外部中断和NVIC讲解

力扣刷题——排序链表

Lua语言脚本环境配置

【uboot1】启动流程，环境变量，实例

Ubuntu上给AndroidStudio创建桌面图标

1.部署环境

2.依赖安装

3.模型下载

4.代码准备

1. 侧边栏设置

2. 主界面标题与说明

3. 模型加载与缓存

4. 聊天历史初始化与展示

5. 用户输入处理与模型响应生成

6. 辅助函数：分割模型输出

5.效果测试

相关文章：