tensorrt_onnx

TensorRT compila modelos ONNX para el hardware GPU específico del servidor, aplicando fusión de capas, cuantización FP16/INT8 y otras optimizaciones que reducen la latencia hasta 5x.

When to use

Aplicar a todos los modelos ML antes del despliegue en producción en servidores con GPU NVIDIA.

Instructions

Instalar: TensorRT viene incluido en el contenedor de Triton o instalar desde NVIDIA: pip install tensorrt.

Convertir ONNX a TensorRT engine:

import tensorrt as trt
builder = trt.Builder(logger)
config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.FP16)  # Activar FP16
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)
parser.parse_from_file('model.onnx')
engine = builder.build_serialized_network(network, config)
with open('model.trt', 'wb') as f: f.write(engine)

tensorrt_onnx

TensorRT compila modelos ONNX para el hardware GPU específico del servidor, aplicando fusión de capas, cuantización FP16/INT8 y otras optimizaciones que reducen la latencia hasta 5x.

When to use

Aplicar a todos los modelos ML antes del despliegue en producción en servidores con GPU NVIDIA.

Instructions

Instalar: TensorRT viene incluido en el contenedor de Triton o instalar desde NVIDIA: pip install tensorrt.

Convertir ONNX a TensorRT engine:

import tensorrt as trt
builder = trt.Builder(logger)
config = builder.create_builder_config()
config.set_flag(trt.BuilderFlag.FP16)  # Activar FP16
network = builder.create_network(1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH))
parser = trt.OnnxParser(network, logger)
parser.parse_from_file('model.onnx')
engine = builder.build_serialized_network(network, config)
with open('model.trt', 'wb') as f: f.write(engine)

Tensorrt Onnx

tensorrt_onnx

When to use

Instructions

Tensorrt Onnx

tensorrt_onnx

When to use

Instructions

Notes

Pytorch Patterns

Regex Vs Llm Structured Text

Effect

Flags

WPF to WinUI 3 Migration Skill

At Dispatch V2