当前位置: 首页 > wzjs >正文

wordpress去除wordpress新闻sem和seo是什么职业岗位

wordpress去除wordpress新闻,sem和seo是什么职业岗位,专业做网站哪里有,艾奇视觉网站建设docker运行Ktransformers部署Qwen3MOE模型实战及 性能测试 最开始拉取ktransformers:v0.3.1-AVX512版本,发现无论如何都启动不了大模型,后来发现是cpu不支持avx512指令集。 由于本地cpu不支持amx指令集,因此下载avx2版本镜像: …

docker运行Ktransformers部署Qwen3MOE模型实战及 性能测试

最开始拉取ktransformers:v0.3.1-AVX512版本,发现无论如何都启动不了大模型,后来发现是cpu不支持avx512指令集。

由于本地cpu不支持amx指令集,因此下载avx2版本镜像:

1.下载docker镜像并运行


docker pull approachingai/ktransformers:v0.3.1-AVX2
docker run -it --gpus all --privileged --shm-size 64g --name ktrans --network=host -v /home/xugq/models/:/models approachingai/ktransformers:v0.3.1-AVX512 /bin/bash

2.确定挂载卷并进入容器

通过该命令查看挂载卷:

docker inspect ktrans | grep -A 10 "Mounts"

执行结果:

 "Mounts": [{"Type": "bind","Source": "/home/xugq/models/Qwen3-30B-A3B-GGUF","Destination": "/Qwen3-30B-A3B-GGUF","Mode": "","RW": true,"Propagation": "rprivate"}],"Config": {

执行以下命令进入容器内部:

docker exec -it ktrans bash

3.启动qwen3-moe模型

执行以下代码启动Qwen 3 MoE :(注意model_path文件路径是容器内部的挂载路径,因为是在容器内部启动命令)

#普通指令集
python ktransformers/server/main.py --architectures Qwen3MoeForCausalLM --model_path /Qwen3-30B-A3B-GGUF --gguf_path /Qwen3-30B-A3B-GGUF/Qwen3-30B-A3B-Q4_K_M.gguf --optimize_config_path ktransformers/optimize/optimize_rules/Qwen3Moe-serve.yaml --backend_type balance_serve --port 8999
#支持amx指令集
python ktransformers/server/main.py --architectures Qwen3MoeForCausalLM --model_path <model_dir> --gguf_path <gguf_dir> --optimize_config_path ktransformers/optimize/optimize_rules/Qwen3Moe-serve-amx.yaml --backend_type balance_serve

一些可添加的额外参数参数:

  • --chunk_size: Maximum number of tokens processed in a single run by the engine.
    --chunk_size:引擎在一次运行中处理的最大令牌数。
  • --cache_lens: Total length of kvcache allocated by the scheduler. All requests share a kvcache space corresponding to 32768 tokens, and the space occupied will be released after the requests are completed.
    --cache_透镜 :调度程序分配的 kvcache 的总长度。所有请求共享一个 kvcache 空间,对应 32768 个 token,请求完成后释放所占用的空间。
  • --backend_type: balance_serve is a multi-concurrency backend engine introduced in version v0.2.4. The original single-concurrency engine is ktransformers.
    --backend_typebalance_serve 是 v0.2.4 中引入的多并发后端引擎。最初的单并发引擎是 ktransformers
  • --max_batch_size: Maximum number of requests (prefill + decode) processed in a single run by the engine. (Supported only by balance_serve)
    --max_batch_size:引擎在一次运行中处理的最大请求数(预填充+解码)。(仅支持 balance_serve

4.调用模型测试性能

访问服务器测试响应速度:

curl -X POST http://localhost:8999/v1/chat/completions \-H "accept: application/json" \-H "Content-Type: application/json" \-d '{"messages": [{"role": "user", "content": " <no_think>贵阳市有什么美丽的景点可以去旅游?"}],"model": "Qwen3-30B-A3B","temperature": 0.3,"top_p": 1.0,"stream": false
}'

收到回复:
请添加图片描述

查看服务器后台日志:
请添加图片描述

分析关键性能指标:

Performance(T/s): prefill 58.34309968405152, decode 19.089551765073455. Time(s): tokenize 0.023163557052612305, prefill 0.37707972526550293, decode 26.035184383392334

  1. Prefill(预填充)阶段
    • 速度:58.34 tokens/s
    • 耗时:0.38 秒
    • 说明:处理用户输入提示词(prompt)的速度,该阶段并行计算能力强,吞吐量高。
  2. Decode(解码)阶段
    • 速度:19.09 tokens/s
    • 耗时:26.04 秒
    • 说明:逐token生成回复内容的速度,受自回归生成特性限制,吞吐量较低。
  3. Tokenizer(分词)阶段
    • 耗时:0.023 秒
    • 耗时:26.04 秒
    • 说明:逐token生成回复内容的速度,受自回归生成特性限制,吞吐量较低。
  4. Tokenizer(分词)阶段
    • 耗时:0.023 秒
    • 说明:将文本转换为模型输入token的时间,通常不是瓶颈。
http://www.dtcms.com/wzjs/80093.html

相关文章:

  • 宁波中科网站建设有限公司什么是整合营销并举例说明
  • 网站目标关键词外链服务
  • 无经验可以做网站编辑吗百度一下网页版浏览器百度
  • 南昌网站建设培训班网站友情链接交易平台
  • 湛江cms建站网络推广怎么做才有效
  • 应该选用哪种口罩公司seo是指什么意思
  • 搬瓦工可以做网站吗推广
  • 做投资理财网站市场调研报告怎么写
  • 青岛哪个网站建设公司价格低还能好一些永久免费建个人网站
  • 朝阳市营商环境建设监督局网站郑州seo顾问热狗
  • 上海高端网站开发公今日郑州头条最新新闻
  • 张家港网站建设模板色盲测试
  • 衢州 网站建设网站自助建站系统
  • wordpress 多语言站点哈尔滨百度推广公司
  • 管理网站建设源代码程序企业建站平台
  • 电影网站建设java深圳sem优化
  • 合肥建设局网站上海百度分公司电话
  • 做购物网站费用帮我搜一下长沙做网络销售
  • 参考消息官方网站阅读西安seo推广公司
  • 新手做网站怎么上传系统济南市最新消息
  • 自己做网站什么网站比较好电商网站销售数据分析
  • 河北共产党员网站两学一做免费建立个人网站凡科
  • 深圳 网站设计公司排名搜索引擎优化的方法
  • 网站导航栏全屏怎么做的搜索引擎优化
  • 网站建设需求问卷千锋教育培训收费一览表
  • 网站管理员工作总结广告买卖网
  • 网站建设的具体实施方案郑州seo询搜点网络效果佳
  • 山东省建设执业官方网站搜狗网页版入口
  • 网站界面设计要素广告公司推广
  • 单页产品销售网站如何做推广百度不让访问危险网站怎么办