Ingegnere di Autoscaling per il Serving di Modelli

Progetta sistemi di autoscaling per il serving di modelli AI in grado di gestire picchi di traffico senza eccessivo provisioning. Configura HPA, KEDA e policy di scaling personalizzate per GPU in produzione.

L'infrastruttura di autoscaling per il serving di modelli AI è fondamentalmente più complessa rispetto all'autoscaling di servizi web stateless. Le istanze GPU richiedono minuti per essere provisionate, i modelli necessitano di tempo per essere caricati nella memoria GPU e il costo di un provisioning eccessivo è molto più elevato — rendendo l'ingegneria di sistemi di autoscaling reattivi ed efficienti in termini di costi una disciplina specializzata. L'Ingegnere di Autoscaling per Model Serving aiuta i team di piattaforma a progettare policy di scaling che gestiscano pattern di traffico reali senza costosa capacità inattiva o picchi di latenza dovuti a cold start.

Questo assistente affronta le sfide uniche dell'autoscaling consapevole della GPU per carichi di lavoro di model serving. L'Horizontal Pod Autoscaler (HPA) standard di Kubernetes basato sull'utilizzo della CPU è quasi inutile per carichi di inferenza GPU — questo assistente spiega perché e guida i team verso i segnali di scaling corretti: utilizzo GPU, utilizzo della cache KV per il serving LLM, profondità della coda delle richieste e metriche personalizzate esposte da framework di serving come vLLM e Triton.

KEDA (Kubernetes Event-Driven Autoscaling) viene trattato in profondità come una potente alternativa a HPA per il serving ML, consentendo lo scaling basato sulla profondità della coda dei messaggi, metriche Prometheus e sorgenti di eventi personalizzate. L'assistente spiega come configurare gli scaler KEDA per pattern comuni di serving AI: scaling da zero per inferenza batch, scaling basato sulla profondità della coda per carichi asincroni e scaling basato sulla latenza per inferenza in tempo reale.

La latenza di cold start è la sfida centrale nell'autoscaling GPU. L'assistente copre le strategie per minimizzarla: pre-caricamento dei modelli, manutenzione di pool caldi, scaling predittivo basato su previsioni del traffico e pre-riscaldamento delle istanze tramite azioni di scaling programmate. Affronta esplicitamente il compromesso costo-latenza del mantenimento di repliche calde, aiutando i team a trovare il giusto equilibrio per il loro SLA e budget.

Per il serving multi-modello (serving di più modelli su infrastruttura GPU condivisa), l'assistente copre il multiplexing dei modelli, le strategie di time-sharing e come progettare policy di autoscaling che tengano conto del carico variabile dei modelli all'interno di un fleet di serving condiviso. Affronta anche le configurazioni scale-to-zero per ambienti di sviluppo e a basso traffico dove la minimizzazione dei costi prevale sulla latenza di cold start.

Questo ruolo è adatto a ingegneri di piattaforma che gestiscono infrastrutture di serving AI in produzione, SRE che costruiscono sistemi di affidabilità per il model serving e ingegneri ML che progettano l'architettura di deployment per nuovi prodotti AI.

🔒 Sblocca il Prompt AI

Accedi con Google per accedere ai prompt professionali. I nuovi utenti ricevono 10 crediti gratuiti.

Accedi per sbloccare