当前位置: 首页 > news >正文

Triton推理服务器部署YOLOv8(onnxruntime后端和TensorRT后端)

文章目录

    • 一、Trition推理服务器基础知识
      • 1)推理服务器设计概述
      • 2)Trition推理服务器quickstart
        • (1)创建模型仓库(Create a model Repository)
        • (2)启动Triton (launching triton)并验证是否正常运行
        • (3)发送推理请求(send a inference request)
      • 3)Trition推理服务器架构
      • 4)Trition推理服务器模型配置(最小、最大模型配置,最大批处理次数,模型维度形状,数据类型)
    • 二、YOLOv8安装
      • 1)安装网络环境
      • 2)安装pytorch
      • 3)安装和克隆YOLOv8
    • 三、TensorRT补充
      • 1)简介
      • 2)TRT引擎构建
      • 3)TRT API基本用法
      • 4)plugin加速推理
    • 四、onnx补充
      • 1)onnx概述+模型网络结构+数据结构
      • 2)onnx模型搭建+dump信息+推理
      • 3)onnx_graphsurgeon
      • 4)onnx_Simplifier
    • 五、Trion推理服务器部署(onnxruntime后端)
      • 1)安装docker和NVIDIA Container toolkit
        • (1)安装docker
        • (2)安装NVIDIA Container toolkit
      • 2)导出onnx模型
      • 3)组织模型仓库布局文件
      • 4)构建Triton推理docker容器
      • 5)运行和测试Triton服务器
    • 六、Trion推理服务器部署(TensorRT后端)
      • 1)构建TensorRT引擎
      • 2)组织模型仓库布局
      • 3)构建Triton推理的docker容器
      • 4)运行和测试Triton服务器
      • 5)前处理说明

一、Trition推理服务器基础知识

1)推理服务器设计概述

在这里插入图片描述

  • 设计思想和特点
    1、支持多种机器学习框架
    在这里插入图片描述
    2、支持多种部署场景

在这里插入图片描述
3、高性能推理
在这里插入图片描述
4、灵活的模型管理
在这里插入图片描述
5、可扩展性
在这里插入图片描述
6、强大的客户端支持
在这里插入图片描述

2)Trition推理服务器quickstart

(1)创建模型仓库(Create a model Repository)

在这里插入图片描述

(2)启动Triton (launching triton)并验证是否正常运行

cpu运行

$ docker run --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

在这里插入图片描述
GPU运行
在这里插入图片描述
命令

$ docker run --gpus=1 --rm -p8000:8000 -p8001:8001 -p8002:8002 -v/full/path/to/docs/examples/model_repository:/models nvcr.io/nvidia/tritonserver:<xx.yy>-py3 tritonserver --model-repository=/models

输出

+----------------------+---------+--------+
| Model                | Version | Status |
+----------------------+---------+--------+
| <model_name>         | <v>     | READY  |
| ..                   | .       | ..     |
| ..                   | .       | ..     |
+----------------------+---------+--------+
...
...
...
I1002 21:58:57.891440 62 grpc_server.cc:3914] Started GRPCInferenceService at 0.0.0.0:8001
I1002 21:58:57.893177 62 http_server.cc:2717] Started HTTPService at 0.0.0.0:8000
I1002 21:58:57.935518 62 http_server.cc:2736] Started Metrics Service at 0.0.0.0:8002

在这里插入图片描述

  • 验证是否正常运行
    在这里插入图片描述
$ curl -v localhost:8000/v2/health/ready
...
< HTTP/1.1 200 OK
< Content-Length: 

相关文章:

  • 计算机网络全维度解析:架构协议、关键设备、安全机制与新兴技术深度融合
  • python里的NumPy算法
  • VSCode + GD32F407 构建烧录
  • Axure设计案例——科技感对比柱状图
  • React 编译器 RC
  • Java大师成长计划之第34天:开源项目参与与贡献指南
  • 已解决:.NetCore控制台程序(WebAPI)假死,程序挂起接口不通
  • R语言基础| 数据基本管理与操作
  • 【.net core】SkiaSharp 如何在Linux上实现
  • Axios 如何通过配置实现通过接口请求下载文件
  • docker运行centos提示Operation not permitted
  • 2023-ICLR-ReAct 首次结合Thought和Action提升大模型解决问题的能力
  • CentOS:企业级Linux的社区力量与未来演进
  • aws instance store 的恢复
  • lesson04-简单回归案例实战(理论+代码)
  • AWS WebRTC:获取ICE服务地址(part 2): ICE Agent的作用
  • MySQL JSON数据存储结构与操作
  • 【深度学习】11. Transformer解析: Self-Attention、ELMo、Bert、GPT
  • jenkins集成gitlab实现自动构建
  • Redis--基础知识点--28--慢查询相关
  • Wordpress虚拟资源下载类主题/seo培训班
  • 淘宝购物券网站怎么做/系统优化软件哪个最好的
  • wordpress 做音乐网站/网络营销服务企业有哪些
  • 深圳哪家做网站/成都seo
  • 网站诊断报告案例/优化人员是什么意思
  • 网站权重6了该则么做优化方案/seo网站课程