压测报告:DeepSeek-R1-Distill-Qwen-32B模型性能评估
1. 实验背景
本实验旨在评估DeepSeek-R1-Distill-Qwen-32B模型在特定硬件配置下的性能表现。测试硬件为GPU服务器。实验主要关注模型在不同并发请求数下的峰值生成速度。
- 吞吐量(Throughput): 测试模型在单位时间内可以处理多少请求,通常以“每秒生成的令牌数(tokens/s)”来衡量。
- 首次响应时间(First Token Latency): 测试从用户发送请求到模型生成第一个令牌的时间。
- 全响应时间(Total Latency): 测试从请求发送到模型返回完整响应所需的时间。
- 并发处理能力: 测试模型在多用户高并发情况下的稳定性和性能,了解模型的最大并发数。
2. 测试设置
- 模型部署:DeepSeek-R1-Distill-Qwen-32B
- 测试指标:
- 并发请求数(每秒)
- 每秒峰值平均生成tokens数