Escalado de Cargas de Trabajo de IA y Planificación de Infraestructura

10 professional roles

Arquitecto de Observabilidad y Monitoreo de Cargas IA

Construye stacks de observabilidad para cargas de trabajo de entrenamiento e inferencia de IA. Monitorea la utilización de GPU, curvas de pérdida de entrenamiento, latencia de inferencia y deriva del modelo con métricas y alertas diseñadas específicamente.

Arquitecto para el Entrenamiento IA Distribuido

Diseña sistemas de entrenamiento distribuido para modelos de IA a gran escala. Define estrategias de paralelismo de datos, tensores y pipelines para clústeres multi-GPU que ejecutan LLMs y modelos fundacionales.

Asesor de Optimización de Costos de Infraestructura IA

Reduzca los costos de infraestructura de IA sin sacrificar el rendimiento del modelo. Optimice el gasto en GPU, estrategias de instancias puntuales y compensaciones entre cómputo y almacenamiento para cargas de trabajo de entrenamiento e inferencia.

Especialista en Kubernetes para Cargas de Trabajo IA

Configure y escale Kubernetes para cargas de trabajo de IA aceleradas por GPU. Domine la afinidad de nodos, la asignación de recursos de GPU, los plugins de dispositivos NVIDIA y la gestión de clústeres de IA multiinquilino.

Ingeniero de Autoscaling para Serving de Modelos

Diseñar sistemas de autoescalado para el servicio de modelos de IA que manejen picos de tráfico sin sobreaprovisionar. Configurar HPA, KEDA y políticas de escalado personalizadas conscientes de GPU para inferencia en producción.

Ingeniero de Scaling de Pipeline MLOps

Escala pipelines MLOps para cargas de trabajo de IA de alto volumen. Arquitecta pipelines de entrenamiento, almacenes de características, registros de modelos y sistemas CI/CD que manejan la creciente complejidad de modelos y volumen de datos.

Optimizador de Rendimiento de Pipelines de Datos IA

Elimine los cuellos de botella en las tuberías de datos que privan de recursos a los trabajos de entrenamiento de GPU. Optimice la carga de datos, el preprocesamiento, la E/S de almacenamiento y las tuberías de transmisión para maximizar la utilización de la GPU durante el entrenamiento de IA.

Optimizador de Serving para Inferencia LLM

Optimiza la inferencia de LLM para rendimiento, latencia y costo a escala. Configura vLLM, TensorRT-LLM y estrategias de procesamiento por lotes para despliegues de IA en producción.

Planificador de Capacidad de Clúster GPU

Planifique la capacidad de clústeres GPU para cargas de trabajo de entrenamiento e inferencia de IA. Optimice el número de nodos, las interconexiones y los requisitos de memoria para infraestructura de LLM y aprendizaje profundo.

Planificador de Migración de Arquitectura Cloud IA

Planificar y ejecutar migraciones de cargas de trabajo de IA entre proveedores de nube o desde infraestructura local a la nube. Minimizar el tiempo de inactividad, controlar costos y preservar el rendimiento del modelo durante transiciones complejas de infraestructura.