当前位置：首页 > wzjs >正文

官网优化哪家专业重庆seo整站优化

wzjs 2025/7/22 9:25:44

官网优化哪家专业,重庆seo整站优化,建站公司佛山,深圳网站建设网页推广网站设计一、环境准备与安装 1. 创建虚拟环境为避免依赖冲突，建议使用conda创建独立环境： conda create -n vllm python3.10 -y conda activate vllm若conda命令未找到，需配置环境变量： echo export PATH"/usr/local/anaconda3/…

一、环境准备与安装

1. 创建虚拟环境

为避免依赖冲突，建议使用conda创建独立环境：

conda create -n vllm python=3.10 -y
conda activate vllm

若conda命令未找到，需配置环境变量：

echo 'export PATH="/usr/local/anaconda3/bin:$PATH"' >> ~/.bashrc
source ~/.bashrc
conda init

2. 安装依赖库

SQLite升级（解决版本兼容性问题）：

conda config --add channels conda-forge
conda config --set channel_priority strict
conda install sqlite=3.42.0

xFormers加速（可选但推荐）：

pip install xformers-0.0.27.post2-cp310-cp310-manylinux2014_x86_64.whl

3. 安装vLLM

推荐使用清华源加速安装：

pip install vllm==0.5.4 -i https://pypi.tuna.tsinghua.edu.cn/simple

python -c "import vllm; print(vllm.__version__)"  # 应输出0.5.4

二、模型下载与准备

从ModelScope下载模型（以Qwen2.5-1.5B为例）：

modelscope download --model qwen/Qwen2.5-1.5B
模型默认路径为：
~/.cache/modelscope/hub/qwen/Qwen2.5-1.5B

三、单机多卡部署

1. 启动命令

以2卡为例：

vllm serve /path/to/model \--dtype half \                  # 半精度减少显存占用--tensor-parallel-size 2 \      # 张量并行数=GPU数--gpu-memory-utilization 0.8 \  # 显存利用率阈值--max-model-len 2048 \          # 最大输入长度--max-num-seqs 8 \             # 最大并发序列数--enforce-eager \               # 禁用图优化，避免兼容性问题--api-key token-abc123          # 自定义API密钥

关键参数说明：

–tensor-parallel-size：必须与GPU数量一致，否则会报错ValueError: Total number of attention heads must be divisible by tensor parallel size 。
–gpu-memory-utilization：建议0.7~0.9，过高可能导致OOM 。
–enforce-eager：禁用CUDA图优化，提升稳定性但略微降低性能。

2. 验证服务

服务默认监听0.0.0.0:8000，可通过以下命令测试：

curl http://localhost:8000/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "qwen2-1.5b","messages": [{"role": "user", "content": "你好，你是谁？"}]}'

预期返回：

{"choices": [{"message": {"content": "我是通义千问，由阿里云开发的大语言模型。"}}]
}

四、性能优化与问题排查

1. 显存管理

现象：显存占用异常高
解决：调整–gpu-memory-utilization至更低值（如0.5），或启用–swap-space 16利用主机内存扩展交换空间。

KV缓存优化：vLLM通过PagedAttention技术动态管理显存，但长序列仍可能占满显存。可通过–block-size 8减小内存块大小。

2. 常见报错

CUDA版本不兼容：
若报错Bfloat16 is only supported on GPUs with compute capability ≥8.0，需强制使用float16：

vllm serve ... --dtype float16

多卡启动卡死：
设置环境变量强制使用spawn模式：

export VLLM_WORKER_MULTIPROC_METHOD=spawn

五、基准测试

使用ab工具测试吞吐量（需安装apache2-utils）：

ab -n 100 -c 10 -p request.json -T "application/json" 
http://localhost:8000/v1/chat/completions

六、总结

vLLM的单机多卡部署流程可概括为：环境配置→模型下载→参数调优→服务验证。关键点包括：

1.确保CUDA、PyTorch与vLLM版本兼容。

2.根据GPU数量设置–tensor-parallel-size 。

3.通过–gpu-memory-utilization平衡显存与性能。

查看全文

http://www.dtcms.com/wzjs/47983.html

新商盟网站开发时间国际军事新闻最新消息今天

做ppt音乐模板下载网站网站推广的100种方法

永川做网站的百度seo点击排名优化

在自己电脑上建网站交换友链平台

做政府网站公司手机网站怎么优化

华为手机网站建设策划书营销网站类型

有哪些网站有收录做红酒的商行百度seo教程视频

如何做求职招聘网站襄阳网站推广优化技巧

办公网站模板人民网疫情最新消息

苏州网站关键词优化推广一个产品的宣传和推广方案

营销网站制作哪家靠谱seo课培训

上海松一网站建设怎么把产品快速宣传并推广

买域名的网站湘潭seo培训

汽车配件响应式网站网络营销的应用研究论文

甘肃省级建设主管部门网站品牌营销经典案例

杭州专业的网站制作公司搜索引擎排名原理

外贸新手怎样用谷歌找客户域名年龄对seo的影响

厦门电商网站百度官方网站登录

淄赌博做网站创量广告投放平台

宁波专业做网站的公司有哪些aso关键词排名优化是什么

浙江省水利建设行业协会网站app推广拉新平台

湖南的商城网站建设关键词全网搜索工具

东莞seo建站优化收费百度推广多少钱

做的网站百度上可以搜到吗seo技术经理

移动网站开发pdf自主建站

温州做网站公司有哪些曼联目前积分榜

南昌市，做网站的公司网络推广渠道

房产网站建设方案论文网址查询工具

wordpress完整替换网址seo型网站

唐山做网站的电话体验营销策略