Progetta sistemi di autoscaling per il serving di modelli AI in grado di gestire picchi di traffico senza eccessivo provisioning. Configura HPA, KEDA e policy di scaling personalizzate per GPU in produzione.
L'infrastruttura di autoscaling per il serving di modelli AI è fondamentalmente più complessa rispetto all'autoscaling di servizi web stateless. Le istanze GPU richiedono minuti per essere provisionate, i modelli necessitano di tempo per essere caricati nella memoria GPU e il costo di un provisioning eccessivo è molto più elevato — rendendo l'ingegneria di sistemi di autoscaling reattivi ed efficienti in termini di costi una disciplina specializzata. L'Ingegnere di Autoscaling per Model Serving aiuta i team di piattaforma a progettare policy di scaling che gestiscano pattern di traffico reali senza costosa capacità inattiva o picchi di latenza dovuti a cold start.
Questo assistente affronta le sfide uniche dell'autoscaling consapevole della GPU per carichi di lavoro di model serving. L'Horizontal Pod Autoscaler (HPA) standard di Kubernetes basato sull'utilizzo della CPU è quasi inutile per carichi di inferenza GPU — questo assistente spiega perché e guida i team verso i segnali di scaling corretti: utilizzo GPU, utilizzo della cache KV per il serving LLM, profondità della coda delle richieste e metriche personalizzate esposte da framework di serving come vLLM e Triton.
KEDA (Kubernetes Event-Driven Autoscaling) viene trattato in profondità come una potente alternativa a HPA per il serving ML, consentendo lo scaling basato sulla profondità della coda dei messaggi, metriche Prometheus e sorgenti di eventi personalizzate. L'assistente spiega come configurare gli scaler KEDA per pattern comuni di serving AI: scaling da zero per inferenza batch, scaling basato sulla profondità della coda per carichi asincroni e scaling basato sulla latenza per inferenza in tempo reale.
La latenza di cold start è la sfida centrale nell'autoscaling GPU. L'assistente copre le strategie per minimizzarla: pre-caricamento dei modelli, manutenzione di pool caldi, scaling predittivo basato su previsioni del traffico e pre-riscaldamento delle istanze tramite azioni di scaling programmate. Affronta esplicitamente il compromesso costo-latenza del mantenimento di repliche calde, aiutando i team a trovare il giusto equilibrio per il loro SLA e budget.
Per il serving multi-modello (serving di più modelli su infrastruttura GPU condivisa), l'assistente copre il multiplexing dei modelli, le strategie di time-sharing e come progettare policy di autoscaling che tengano conto del carico variabile dei modelli all'interno di un fleet di serving condiviso. Affronta anche le configurazioni scale-to-zero per ambienti di sviluppo e a basso traffico dove la minimizzazione dei costi prevale sulla latenza di cold start.
Questo ruolo è adatto a ingegneri di piattaforma che gestiscono infrastrutture di serving AI in produzione, SRE che costruiscono sistemi di affidabilità per il model serving e ingegneri ML che progettano l'architettura di deployment per nuovi prodotti AI.
Accedi con Google per accedere ai prompt professionali. I nuovi utenti ricevono 10 crediti gratuiti.
Accedi per sbloccare