当前位置：首页 > news >正文

Triton推理服务器部署YOLOv8（onnxruntime后端和TensorRT后端）

news 来源：原创 2025/6/2 14:44:28

文章目录

- 一、Trition推理服务器基础知识
- - 1）推理服务器设计概述
  - 2）Trition推理服务器quickstart
  - - （1）创建模型仓库（Create a model Repository）
    - （2）启动Triton （launching triton）并验证是否正常运行
    - （3）发送推理请求（send a inference request）
  - 3）Trition推理服务器架构
  - 4）Trition推理服务器模型配置（最小、最大模型配置，最大批处理次数，模型维度形状，数据类型）
- 二、YOLOv8安装
- - 1）安装网络环境
  - 2）安装pytorch
  - 3）安装和克隆YOLOv8
- 三、TensorRT补充
- - 1）简介
  - 2）TRT引擎构建
  - 3）TRT API基本用法
  - 4）plugin加速推理
- 四、onnx补充
- - 1）onnx概述+模型网络结构+数据结构
  - 2）onnx模型搭建+dump信息+推理
  - 3）onnx_graphsurgeon
  - 4）onnx_Simplifier
- 五、Trion推理服务器部署（onnxruntime后端）
- - 1）安装docker和NVIDIA Container toolkit
  - - （1）安装docker
    - （2）安装NVIDIA Container toolkit
  - 2）导出onnx模型
  - 3）组织模型仓库布局文件
  - 4）构建Triton推理docker容器
  - 5）运行和测试Triton服务器
- 六、Trion推理服务器部署（TensorRT后端）
- - 1）构建TensorRT引擎
  - 2）组织模型仓库布局
  - 3）构建Triton推理的docker容器
  - 4）运行和测试Triton服务器
  - 5）前处理说明

一、Trition推理服务器基础知识

1）推理服务器设计概述

在这里插入图片描述

设计思想和特点
1、支持多种机器学习框架

2、支持多种部署场景

在这里插入图片描述
3、高性能推理

4、灵活的模型管理

5、可扩展性

6、强大的客户端支持

2）Trition推理服务器quickstart

（1）创建模型仓库（Create a model Repository）

在这里插入图片描述

（2）启动Triton （launching triton）并验证是否正常运行

cpu运行

$ docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

在这里插入图片描述
GPU运行

命令

$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

输出

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| <model_name>         | <v>     | READY  |
| ..                   | .       | ..     |
| ..                   | .       | ..     |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002

在这里插入图片描述

验证是否正常运行

$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length:

计算机网络全维度解析：架构协议、关键设备、安全机制与新兴技术深度融合

python里的NumPy算法

VSCode + GD32F407 构建烧录

Axure设计案例——科技感对比柱状图

React 编译器 RC

Java大师成长计划之第34天：开源项目参与与贡献指南

已解决：.NetCore控制台程序(WebAPI)假死,程序挂起接口不通

R语言基础| 数据基本管理与操作

【.net core】SkiaSharp 如何在Linux上实现

Axios 如何通过配置实现通过接口请求下载文件

docker运行centos提示Operation not permitted

2023-ICLR-ReAct 首次结合Thought和Action提升大模型解决问题的能力

CentOS：企业级Linux的社区力量与未来演进

aws instance store 的恢复

lesson04-简单回归案例实战（理论+代码）

AWS WebRTC：获取ICE服务地址（part 2）: ICE Agent的作用

MySQL JSON数据存储结构与操作

【深度学习】11. Transformer解析： Self-Attention、ELMo、Bert、GPT

jenkins集成gitlab实现自动构建

Redis--基础知识点--28--慢查询相关

Wordpress虚拟资源下载类主题/seo培训班

淘宝购物券网站怎么做/系统优化软件哪个最好的

wordpress 做音乐网站/网络营销服务企业有哪些

深圳哪家做网站/成都seo

网站诊断报告案例/优化人员是什么意思

网站权重6了该则么做优化方案/seo网站课程

文章目录

一、Trition推理服务器基础知识

1）推理服务器设计概述

2）Trition推理服务器quickstart

（1）创建模型仓库（Create a model Repository）

（2）启动Triton （launching triton）并验证是否正常运行

相关文章：