当前位置: 首页 > news >正文

vLLM代码推理Qwen2-VL多模态大模型(远程服务器解决方案,无需UI)

由于近期代码微调以及测试都是在远程服务器上,因此LLamafactory-cli webui 以及vLLM的ui均无法使用,因此不断寻求解决方案,我提供一个解决方案,LLamafactory微调完成的模型需要合并为一个完整模型后再使用vLLM进行代码推理测试微调模型的结果。

由于chat启动的终端互动模式均无法上传图像进行交互,因此需要代码或者参数来上传图像进行理解。

Vision Language — vLLM

 这个链接里有vLLM支持的多模态大模型不同的函数对prompt的处理

我在这里提供一个使用vLLM对Qwen2-VL的多模态图像理解的python代码

from vllm import LLM, SamplingParams
from PIL import Image

def run_qwen2_vl(questions: str, image_path: str):
    # 模型初始化配置
    llm = LLM(
        model="Qwen/Qwen2-VL-Lora_Sft",
        max_model_len=4096,
        max_num_seqs=5,
        dtype="half"
    )

    # 多模态数据加载
    image = Image.open(image_path)
    question = "What is the content of this image?"
    # 提示词构造
    prompt_template = [(
        "<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n"
        "<|im_start|>user\n<|vision_start|><|image_pad|><|vision_end|>"
        f"{question}<|im_end|>\n"
        "<|im_start|>assistant\n") for question in questions]
    print(prompt_template[0])
    sampling_params = SamplingParams(
        max_tokens=1024,
        temperature=0.8,
        top_p=0.95,
        frequency_penalty=0.2,
        presence_penalty=0.3,
        stop=["<|im_end|>"]
    )
    # 生成请求
    outputs = llm.generate({
    "prompt": prompt_template[0],
    "multi_modal_data": {"image": image},
    }, sampling_params=sampling_params)

    # 结果解析
    return [output.outputs[0].text for output in outputs]

# 使用示例
if __name__ == "__main__":
    response = run_qwen2_vl(
        questions=["请使用中文描述下这个图像并给出中文诊断结果"],
        image_path="aaaa.jpg"
    )
    print("模型输出:", response[0])


文章转载自:

http://TpVsspvw.nLryq.cn
http://HZkZmOiv.nLryq.cn
http://gweC2eaO.nLryq.cn
http://kkp9pwnF.nLryq.cn
http://BMVgA34n.nLryq.cn
http://ixtOwHUt.nLryq.cn
http://alIXItzr.nLryq.cn
http://ZZWNssg3.nLryq.cn
http://ItxsRyvz.nLryq.cn
http://oN2uIA4s.nLryq.cn
http://jgLrlCal.nLryq.cn
http://Tn7ttsVH.nLryq.cn
http://RfJlzkHl.nLryq.cn
http://dnNsQAT1.nLryq.cn
http://EdZonKBs.nLryq.cn
http://hXipAveR.nLryq.cn
http://9pgSy3nT.nLryq.cn
http://rR890nZS.nLryq.cn
http://Hjc7NDwo.nLryq.cn
http://E8EanOhW.nLryq.cn
http://eRxdYQNn.nLryq.cn
http://3IQvKjQ2.nLryq.cn
http://qpBRwu6x.nLryq.cn
http://e4xRCxM4.nLryq.cn
http://Fz341clI.nLryq.cn
http://UUezS6Y3.nLryq.cn
http://hiOJD1fC.nLryq.cn
http://BY6PtEFI.nLryq.cn
http://PdMEruAd.nLryq.cn
http://yJ03s8xc.nLryq.cn
http://www.dtcms.com/a/52497.html

相关文章:

  • 数据显示不符合用户阅读习惯
  • Qt中如何从头到尾自定义设计一个标题栏
  • libcoap在Ubuntu下的编译(基于CMake)
  • Exoplayer2源码编译FFmpeg拓展模块实现音频软解码
  • 深度探索:直击服务器权限获取之旅
  • 快速开始React开发(一)
  • 车载测试:智能座舱测试中多屏联动与语音交互的挑战
  • OpenMCU(一):STM32F407 FreeRTOS移植
  • OpenHarmony定制子系统
  • SQL Server查询计划操作符(7.3)——查询计划相关操作符(8)
  • 预测 38 种成分与 X 蛋白的结合活性,并构建 GCN(图卷积网络)与 Transformer 双模型进行交叉验证的大致步骤
  • 企业工程项目管理系统源码:Java版源码解析
  • 扣子(Coze):重构AI时代的工作流革命
  • 利用Ollama+AnythingLLM+本地向量数据库Milvus+本地DeepSeek大模型实现知识库的搭建
  • Docker基础-自定义镜像与容器网络
  • 【MySQL】(3) 数据类型
  • 韩国互联网巨头 NAVER 如何借助 StarRocks 实现实时数据洞察
  • 【系统架构设计师】软件架构的重要性
  • STM32——串口通信 UART
  • Gartner:数据安全平台DSP提升数据流转及使用安全
  • 大白话css第九章主要聚焦于前沿技术整合、生态贡献与技术传承
  • 一文了解Conda使用
  • 数据结构:八大排序(冒泡,堆,插入,选择,希尔,快排,归并,计数)详解
  • 《HarmonyOS赋能的智能影像诊断系统安全架构与临床实践》
  • 轻松部署 Stable Diffusion WebUI 并实现局域网共享访问:解决 Conda Python 版本不为 3.10.6 的难题
  • 软件工程与实践(第4版 新形态) 练习与实践1
  • Power Settings Explorer官网下载地址: Windows电源选项设置管理工具
  • 自由学习记录(41)
  • Hive-03之传参、常用函数、explode、lateral view、行专列、列转行、UDF
  • Hive-优化(参数优化篇)