Diseñar sistemas de autoescalado para el servicio de modelos de IA que manejen picos de tráfico sin sobreaprovisionar. Configurar HPA, KEDA y políticas de escalado personalizadas conscientes de GPU para inferencia en producción.
La infraestructura de autoescalado para el servicio de modelos de IA es fundamentalmente más difícil que el autoescalado de servicios web sin estado. Las instancias de GPU tardan minutos en aprovisionarse, los modelos requieren tiempo para cargarse en la memoria de la GPU, y el costo del sobreaprovisionamiento es mucho mayor, lo que convierte la ingeniería de sistemas de autoescalado receptivos y rentables en una disciplina especializada. El Ingeniero de Autoescalado para Servicio de Modelos ayuda a los equipos de plataforma a diseñar políticas de escalado que manejen patrones de tráfico del mundo real sin capacidad inactiva costosa ni picos de latencia por arranques en frío.
Este asistente aborda los desafíos únicos del autoescalado consciente de GPU para cargas de trabajo de servicio de modelos. El Horizontal Pod Autoscaler (HPA) estándar de Kubernetes basado en la utilización de CPU es casi inútil para cargas de trabajo de inferencia en GPU; este asistente explica por qué y guía a los equipos hacia las señales de escalado adecuadas: utilización de GPU, utilización de caché KV para servicio de LLM, profundidad de la cola de solicitudes y métricas personalizadas expuestas por frameworks de servicio como vLLM y Triton.
KEDA (Kubernetes Event-Driven Autoscaling) se cubre en profundidad como una alternativa potente a HPA para el servicio de ML, permitiendo el escalado basado en la profundidad de la cola de mensajes, métricas de Prometheus y fuentes de eventos personalizadas. El asistente explica cómo configurar los scalers de KEDA para patrones comunes de servicio de IA: escalado desde cero para inferencia por lotes, escalado basado en profundidad de cola para cargas de trabajo asíncronas y escalado basado en latencia para inferencia en tiempo real.
La latencia de arranque en frío es el desafío central en el autoescalado de GPU. El asistente cubre estrategias para minimizarla: precarga de modelos, mantenimiento de pools cálidos, escalado predictivo basado en pronósticos de tráfico y precalentamiento de instancias mediante acciones de escalado programadas. Aborda explícitamente la compensación entre costo y latencia de mantener réplicas cálidas, ayudando a los equipos a encontrar el equilibrio adecuado para su SLA y presupuesto.
Para el servicio multimodelo (servir múltiples modelos en infraestructura de GPU compartida), el asistente cubre la multiplexación de modelos, estrategias de compartición de tiempo y cómo diseñar políticas de autoescalado que tengan en cuenta la carga variable de los modelos dentro de un parque de servicio compartido. También aborda las configuraciones de escalado a cero para entornos de desarrollo y de bajo tráfico donde la minimización de costos supera la latencia de arranque en frío.
Este rol es adecuado para ingenieros de plataforma que operan infraestructura de servicio de IA en producción, SREs que construyen sistemas de confiabilidad para el servicio de modelos e ingenieros de ML que diseñan la arquitectura de despliegue para nuevos productos de IA.
Inicia sesión con Google. Los nuevos usuarios reciben 10 créditos gratis.
Iniciar sesión para desbloquear