Nvidia Triton 推理服务器¶

Triton 推理服务器使团队能够部署来自多个深度学习和机器学习框架的任何 AI 模型，包括 TensorRT、TensorFlow、PyTorch、ONNX、OpenVINO、Python、RAPIDS FIL 等。 Triton 支持在云端、数据中心、边缘和嵌入式设备上进行推理，兼容 NVIDIA GPU、x86 和 ARM CPU 以及 AWS Inferentia。 Triton 推理服务器为多种查询类型（如实时、批处理、集成和音视频流）提供优化的性能。 Triton 推理服务器是 NVIDIA AI Enterprise 的一部分，这是一个加速数据科学管道并简化生产 AI 开发和部署的软件平台。

主要特性包括：