当前位置: 首页 > news >正文

【vLLM 学习】Aqlm 示例

vLLM 是一款专为大语言模型推理加速而设计的框架,实现了 KV 缓存内存几乎零浪费,解决了内存管理瓶颈问题。

更多 vLLM 中文文档及教程可访问 →https://vllm.hyper.ai/

源代码:vllm-project/vllm

from vllm import LLM, SamplingParams
from vllm.utils import FlexibleArgumentParserdef main():parser = FlexibleArgumentParser(description='AQLM examples')parser.add_argument('--model','-m',type=str,default=None,help='model path, as for HF')parser.add_argument('--choice','-c',type=int,default=0,help='known good models by index, [0-4]')parser.add_argument('--tensor-parallel-size','-t',type=int,default=1,help='tensor parallel size')args = parser.parse_args()models = ["ISTA-DASLab/Llama-2-7b-AQLM-2Bit-1x16-hf","ISTA-DASLab/Llama-2-7b-AQLM-2Bit-2x8-hf","ISTA-DASLab/Llama-2-13b-AQLM-2Bit-1x16-hf","ISTA-DASLab/Mixtral-8x7b-AQLM-2Bit-1x16-hf","BlackSamorez/TinyLlama-1_1B-Chat-v1_0-AQLM-2Bit-1x16-hf",]model = LLM(args.model if args.model is not None else models[args.choice],tensor_parallel_size=args.tensor_parallel_size)sampling_params = SamplingParams(max_tokens=100, temperature=0)outputs = model.generate("Hello my name is",sampling_params=sampling_params)print(outputs[0].outputs[0].text)if __name__ == '__main__':main()

相关文章:

  • 嵌入式ARM RISCV toolchain工具 梳理arm-none-eabi-gcc
  • PHP腾讯云人脸核身获取FaceId
  • 哪种电脑更稳定?Mac?Windows?还是云电脑? 实测解密
  • YOLOv8技术详解:革命性的目标检测算法
  • Spring lazy-init 懒加载的原理
  • Linux 日常运维命令大全
  • Tensorflow释放GPU资源
  • hadoop的三大结构及各自的作用
  • 使用Jasypt对配置文件内容加密
  • 十天借助 Trae 实现 “幸运塔塔屋” 小程序时光记忆功能之旅
  • 学术AI工具推荐
  • 前端零基础入门到上班:Day7——表单系统实战全解析
  • 2025最新系统 Linux 教程(四)
  • Hadoop的三大结构及其作用
  • 开源 vs. 闭源:大模型的未来竞争格局
  • 学习设计模式《一》——简单工厂
  • 5.Rust+Axum:打造高效错误处理与响应转换机制
  • 4.18日学习--引用
  • LINUX418 加载YUM源 wireshark ping程序 解析
  • C++: 类和对象(中)
  • 设计类网站建设规划书/职业培训网络平台
  • 如何制作淘客导购网站/成都网站快速排名软件
  • seo方案怎么做/seo是如何做优化的
  • 如何建设个人网站/腾讯营销平台
  • 百度网站域名费一年多少钱/淘宝优化
  • ps网站怎么做滑动背景图片/网站优化外包费用