当前位置: 首页 > news >正文

LLM推理相关指标

(1)Time To First Token(TTFT)

生成第一个token的时间,衡量的是在用户输入问题或者查询后,LLMs开始响应的速度,关系到实时交互。

(2)Time Per Output Token(TPOT)

每秒输出标记的时间,生成每个输出token所需的时间,10 tokens / second是一个阈值,低于这个阈值系统会觉得卡顿。

(3)Latency = TTFT + TPOT * 生成的token的数量

生成所有tokens的总时间

(4)Throughput

推理服务器在所有请求中每秒生成的tokens数量

优化目标:

(1)最小化TTFT,最大化Throughput,减少TPOT

(2)平衡Throughput和TPOT,并发处理多个请求会增加Throughput,但是会增加每个用户的TPOT。

模型评估的关键参数:

(1)输出长度Output Length:决定延迟

(2)输出长度Input Length:对性能影响较小,但是对硬件要求较高

(3)模型尺寸:更大的模型有更高的延迟,延迟和模型尺寸不成正比,Llama-70B 是 Llama-13B的两倍。

相关文章:

  • python分配方案数 2023年信息素养大赛复赛/决赛真题 小学组/初中组 python编程挑战赛 真题详细解析
  • Go 语言的 GC 垃圾回收
  • 核心机制三:连接管理(三次握手)
  • Day08
  • Hbase
  • Web开发实战:HTML+CSS+JS期末复习全梳理
  • 设计模式——抽象工厂设计模式(创建型)
  • BFD 基本工作原理与实践:如何与 VRRP 联动实现高效链路故障检测?
  • 使用PowerBI个人网关定时刷新数据
  • Springcloud Alibaba自定义负载均衡详解
  • ESP8266常用指令
  • Kerberos面试内容整理-会话密钥的协商与使用
  • 华为OD机试真题——生成哈夫曼树(2025A卷:100分)Java/python/JavaScript/C/C++/GO六种最佳实现
  • 华为OD机试真题——模拟消息队列(2025A卷:100分)Java/python/JavaScript/C++/C语言/GO六种最佳实现
  • 工业物联网中的事件驱动采样架构及优化
  • 墨香阁小说阅读前端项目
  • 基于Sqoop的MySQL-Hive全量/增量同步解决方案(支持多表批量处理
  • 训练中常见的运动强度分类
  • 大语言模型值ollama使用(1)
  • WPS快速排版
  • 茂名百度搜索网站排名/有什么可以做推广的软件
  • intitle 郑州网站建设/免费建立个人网站
  • 新闻网站传播力建设/网页设计可以自学吗
  • 长春手机网站建站/天津关键词优化网排名
  • 网站风格设计/营销网站seo推广
  • 花卉电子商务网站建设策划书/小程序搭建教程