vLLM专题(四)-故障排除
本文件概述了一些您可以考虑的故障排除策略。如果您认为发现了一个 bug,请首先搜索现有的问题,看看是否已经有人报告。如果没有,请提交一个新问题,并尽可能提供相关的详细信息。
注意
一旦您调试完问题,请记得关闭任何已定义的调试环境变量,或者简单地启动一个新 shell,以避免受残留的调试设置影响。否则,系统可能会因为调试功能未关闭而变得缓慢。
下载模型时卡住
如果模型尚未下载到磁盘,vLLM 将从互联网上下载,这可能需要一些时间,并且取决于您的网络连接。建议首先使用 huggingface-cli
下载模型,并将模型的本地路径传递给 vLLM。这样,您可以隔离问题。
从磁盘加载模型时卡住
如果模型很大,从磁盘加载它可能需要较长时间。请注意模型的存储位置。一些集群在节点之间有共享文件系统,例如分布式文件系统或网络文件系统,这可能会比较慢。最好将模型存储在本地磁盘上。此外,检查一下 CPU 内存的使用情况,当模型过大时,它可能占用大量的 CPU 内存,导致操作系统变慢,因为它需要频繁地在磁盘和内存之间交换数据。
注意
为