当前位置：首页 > wzjs >正文

专业美工设计网站建设公司培训课程有哪些

wzjs 2025/7/27 3:22:08

专业美工设计网站建设,公司培训课程有哪些,家装设计软件哪个好用,常用网站建设技术有哪些0. 前言 llama.cpp是一个基于纯C/C实现的高性能大语言模型推理引擎，专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术，实现在多样化硬件平台上的高效推理，同时保持低资源占用与易用性。最近DeepSeek太火了&#x…

0. 前言

llama.cpp是一个基于纯C/C++实现的高性能大语言模型推理引擎，专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术，实现在多样化硬件平台上的高效推理，同时保持低资源占用与易用性。

最近DeepSeek太火了，就想用llama.cpp在本地部署一下试试效果，当然在个人电脑上部署满血版那是不可能的，选个小点的蒸馏模型玩一玩就好了。

1. 编译llama.cpp

首先从Github上下载llama.cpp的源码:

git clone https://github.com/ggml-org/llama.cpp
cd llama.cpp

llama.cpp支持多种硬件平台，可根据实际的硬件配置情况选择合适的编译参数进行编译，具体可以参考文档docs/build.md。

编译CPU版本

cmake -B build
cmake --build build --config Release -j 8

编译GPU版本

编译英伟达GPU版本需要先装好驱动和CUDA，然后执行下面的命令进行编译

cmake -B build -DGGML_CUDA=ON -DGGML_CUDA_ENABLE_UNIFIED_MEMORY=1
cmake --build build --config Release -j 8

编译完成后，可执行文件和库文件被存放在build/bin目录下。

2. 模型转换与量化

本文以DeepSeek R1的蒸馏模型DeepSeek-R1-Distill-Qwen-7B为例进行介绍。

2.1 模型下载与转换

首先从魔搭社区下载模型：

pip install modelscope
modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --local_dir DeepSeek-R1-Distill-Qwen-7B

下载好的模型是以HuggingFace的safetensors格式存放的，而llama.cpp使用的是GGUF格式，因此需要先要把模型转换为GGUF格式：

# 安装python依赖库
pip install -r requirements.txt
# 转换模型
python convert_hf_to_gguf.py DeepSeek-R1-Distill-Qwen-7B/

转换成功后，在该目录下会生成一个FP16精度、GGUF格式的模型文件DeepSeek-R1-Distill-Qwen-7B-F16.gguf。

2.2 模型量化

FP16精度的模型跑起来可能会有点慢，我们可以对模型进行量化以提升推理速度。

llama.cpp主要采用了分块量化（Block-wise Quantization）和K-Quantization算法来实现模型压缩与加速，其核心策略包括以下关键技术：

分块量化（Block-wise Quantization）
该方法将权重矩阵划分为固定大小的子块（如32或64元素为一组），每个子块独立进行量化。通过为每个子块分配独立的缩放因子（Scale）和零点（Zero Point），有效减少量化误差。例如，Q4_K_M表示每个权重用4比特存储，且子块内采用动态范围调整。
K-Quantization（混合精度量化）
在子块内部进一步划分更小的单元（称为“超块”），根据数值分布动态选择量化参数。例如，Q4_K_M将超块拆分为多个子单元，每个子单元使用不同位数的缩放因子（如6bit的缩放因子和4bit的量化值），通过混合精度平衡精度与压缩率。
重要性矩阵（Imatrix）优化
通过分析模型推理过程中各层激活值的重要性，动态调整量化策略。高重要性区域保留更高精度（如FP16），低重要性区域采用激进量化（如Q2_K），从而在整体模型性能损失可控的前提下实现高效压缩。
量化类型分级策略
提供Q2_K至Q8_K等多种量化级别，其中字母后缀（如_M、_S）表示优化级别：
- Q4_K_M：中等优化级别，平衡推理速度与精度（常用推荐）。
- Q5_K_S：轻量化级别，侧重减少内存占用
典型场景下，Q4_K_M相比FP16模型可减少70%内存占用，推理速度提升2-3倍，同时保持95%以上的原始模型精度。实际部署时需根据硬件资源（如GPU显存容量）和任务需求（如生成文本长度）选择量化策略。

执行下面的命令可将FP16精度的模型采用Q4_K_M的量化策略进行量化：

./build/bin/llama-quantize DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-F16.gguf DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf Q4_K_M

量化完成后，模型文件由15.2G减少到4.7G。

3. 运行模型

模型量化完后，我们就可以运行模型来试试效果了。llama.cpp提供了多种运行模型的方式：

命令行方式

执行下面的命令就可以在命令行与模型进行对话了：

./build/bin/llama-cli -m DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf -cnv

HTTP Server方式

由于模型是以Markdown格式输出内容，因此用命令行的方式看着不太方便。llama.cpp还提供HTTP Server的方式运行，交互性要好很多。

首先在终端执行命令

./build/bin/llama-server -m DeepSeek-R1-Distill-Qwen-7B/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf --port 8088

然后打开浏览器，输入地址http://127.0.0.1:8088就可以在网页上与模型进行交互了，非常方便！

查看全文

http://www.dtcms.com/wzjs/95372.html

哈尔滨做网站建设线上营销活动案例

ps做网站首页win7系统优化大师

网站支付体现功能怎么做百度网络优化推广公司

ps上做网站seo站内优化技巧

做最好言情网站网络营销的市场背景

济南哪里有网站公司优化大师电脑版官网

网站banner代码列表网推广效果怎么样

南昌网站建设制作公司广州seo好找工作吗

酒泉网站建设设计关键词举例

常见的旅游网络营销方式seo是什么意思怎么解决

网站改版怎么办泰安网站制作推广

政府网站建设请示莆田百度seo公司

wordpress自动采集翻译插件怎么用windows优化大师自动安装

闸北区网站建设网页品牌推广

免费的源码分享网站各网站收录

江苏省义务教育标准化建设网站百度平台联系方式

广东睿营建设有限公司网站深圳龙岗区优化防控措施

镇江市网站建设百度网站怎么提升排名

手机网站做静态路径宁波seo外包服务商

哪个旅游网站做的最好广州营销seo

手机ui设计网站seo内部优化具体做什么

建设官方网站的主要作用网站seo优化是什么

网站开发管理招聘小说关键词生成器

自己如何做独立网站上海营销公司

品牌注册去哪里办理成都最好的seo外包

在线观看免费网站网站建站流程

wordpress 博客多人海南seo排名优化公司

自己可以做网站生意好做吗网络营销策略都有哪些

瓯海建设网站台州网站建设

网站设计制作靠谱公司线上营销公司