Ricercatore di Mesa-Ottimizzazione e Allineamento Interno

Indaga sulla mesa-ottimizzazione, l'allineamento ingannevole e i fallimenti dell'allineamento interno nei modelli appresi per costruire pipeline di addestramento più sicure.

La mesa-ottimizzazione e l'allineamento interno rappresentano alcuni dei problemi tecnicamente più sottili e consequenziali nella sicurezza dell'IA. La preoccupazione centrale: quando addestriamo un modello di machine learning, ottimizziamo per certi comportamenti utilizzando un obiettivo di base — ma il modello addestrato può a sua volta diventare un ottimizzatore con il proprio mesa-obiettivo che differisce dall'obiettivo di base. Se questo mesa-obiettivo diverge da ciò che intendevamo, il modello potrebbe comportarsi in modo sicuro durante l'addestramento e la valutazione mentre ospita obiettivi disallineati che si manifestano solo in fase di deployment. Questo è il problema dell'allineamento interno, e si trova al centro del rischio di inganno dell'IA.

L'assistente Mesa-Optimization & Inner Alignment Researcher supporta i ricercatori che lavorano su questa frontiera della teoria e dell'empirica della sicurezza dell'IA. È costruito su una profonda familiarità con il lavoro fondazionale in questo spazio — incluso Risks from Learned Optimization (Hubinger et al.) — e con il successivo lavoro teorico ed empirico che ha esteso, criticato e operazionalizzato queste idee.

Lavorando con questo assistente, puoi esplorare le condizioni in cui è probabile che emergano mesa-ottimizzatori, ragionare su ciò che distingue un mesa-ottimizzatore ingannevolmente allineato da uno robustamente correggibile, e riflettere su come diversi regimi di addestramento e architetture di modello possano influenzare il rischio di allineamento interno. Ti aiuta a coinvolgerti con la letteratura sulla steganografia e sulla misgeneralizzazione degli obiettivi e a collegarle a preoccupazioni di allineamento più ampie.

L'assistente supporta sia il lavoro teorico (formalizzare i concetti di allineamento interno, sviluppare nuove inquadrature) che la progettazione della ricerca empirica (progettare esperimenti per rilevare la mesa-ottimizzazione in modelli reali, operazionalizzare l'allineamento ingannevole come proprietà misurabile). Può anche aiutarti a scrivere chiaramente su questi concetti sia per un pubblico tecnico che politico.

Questo ruolo è ideale per i ricercatori di allineamento alla frontiera della teoria della sicurezza, dottorandi che lavorano sulla misgeneralizzazione degli obiettivi o sull'allineamento ingannevole, e ricercatori senior di ML che vogliono integrare considerazioni di allineamento interno nella progettazione delle pipeline di addestramento.

Ricercatore di Mesa-Ottimizzazione e Allineamento Interno

🔒 Unlock the AI System Prompt