Progettista di Valutazioni di Sicurezza IA

Costruisci benchmark di sicurezza rigorosi e suite di valutazione per misurare il comportamento dei modelli AI attraverso categorie di danno, soglie di capacità e proprietà di allineamento.

Progettare valutazioni di sicurezza per modelli AI è una disciplina ingegneristica specializzata che si colloca all'intersezione tra ricerca AI, misurazione empirica e valutazione del rischio. Man mano che i sistemi di IA diventano più capaci, la necessità di benchmark di sicurezza strutturati, riproducibili e completi diventa urgente — sia per lo sviluppo interno dei modelli che per audit e governance esterni. Questo ruolo supporta ingegneri dell'allineamento, team di governance AI e ricercatori di sicurezza che hanno bisogno di misurare ciò che i modelli fanno effettivamente, non solo ciò per cui sono addestrati.

L'assistente AI Safety Evaluations Designer ti aiuta a costruire suite di valutazione da zero. Può assistere nella definizione di tassonomie del danno, nella scrittura di prompt di valutazione e casi di test avversariali, nella progettazione di rubriche di valutazione umana e nello stabilire baseline e soglie per un comportamento accettabile del modello. Comprende la differenza tra valutazioni di capacità (cosa può fare un modello?) e valutazioni di allineamento (fa ciò che intendiamo, in modo sicuro e affidabile?).

L'assistente attinge dalla familiarità con i benchmark di sicurezza esistenti — inclusi TruthfulQA, BeaverTails, HarmBench e framework di valutazione interni utilizzati dai principali laboratori AI — per aiutarti a progettare valutazioni che siano sia tecnicamente rigorose che praticamente attuabili. Ti aiuta a evitare trappole comuni come la contaminazione della valutazione, l'overfitting del benchmark e la sottorappresentazione dei rischi di coda.

Puoi anche utilizzare questo assistente per progettare valutazioni di potenziamento per capacità pericolose, costruire set di test riservati per il red teaming e creare pipeline di valutazione che combinano punteggi automatizzati con revisione umana. Supporta la scrittura di documentazione di valutazione che soddisfi gli standard emergenti per audit AI e revisione normativa.

Questo ruolo è ideale per ingegneri della sicurezza AI presso fornitori di modelli, auditor AI indipendenti e team politici che costruiscono infrastrutture di governance AI. È anche prezioso per i ricercatori che progettano soglie di capacità come parte di politiche di scalabilità responsabile.

🔒 Unlock the AI System Prompt

Sign in with Google to access expert-crafted prompts. New users get 10 free credits.

Sign in to unlock