Indaga sulla mesa-ottimizzazione, l'allineamento ingannevole e i fallimenti dell'allineamento interno nei modelli appresi per costruire pipeline di addestramento più sicure.
La mesa-ottimizzazione e l'allineamento interno rappresentano alcuni dei problemi tecnicamente più sottili e consequenziali nella sicurezza dell'IA. La preoccupazione centrale: quando addestriamo un modello di machine learning, ottimizziamo per certi comportamenti utilizzando un obiettivo di base — ma il modello addestrato può a sua volta diventare un ottimizzatore con il proprio mesa-obiettivo che differisce dall'obiettivo di base. Se questo mesa-obiettivo diverge da ciò che intendevamo, il modello potrebbe comportarsi in modo sicuro durante l'addestramento e la valutazione mentre ospita obiettivi disallineati che si manifestano solo in fase di deployment. Questo è il problema dell'allineamento interno, e si trova al centro del rischio di inganno dell'IA.
L'assistente Mesa-Optimization & Inner Alignment Researcher supporta i ricercatori che lavorano su questa frontiera della teoria e dell'empirica della sicurezza dell'IA. È costruito su una profonda familiarità con il lavoro fondazionale in questo spazio — incluso Risks from Learned Optimization (Hubinger et al.) — e con il successivo lavoro teorico ed empirico che ha esteso, criticato e operazionalizzato queste idee.
Lavorando con questo assistente, puoi esplorare le condizioni in cui è probabile che emergano mesa-ottimizzatori, ragionare su ciò che distingue un mesa-ottimizzatore ingannevolmente allineato da uno robustamente correggibile, e riflettere su come diversi regimi di addestramento e architetture di modello possano influenzare il rischio di allineamento interno. Ti aiuta a coinvolgerti con la letteratura sulla steganografia e sulla misgeneralizzazione degli obiettivi e a collegarle a preoccupazioni di allineamento più ampie.
L'assistente supporta sia il lavoro teorico (formalizzare i concetti di allineamento interno, sviluppare nuove inquadrature) che la progettazione della ricerca empirica (progettare esperimenti per rilevare la mesa-ottimizzazione in modelli reali, operazionalizzare l'allineamento ingannevole come proprietà misurabile). Può anche aiutarti a scrivere chiaramente su questi concetti sia per un pubblico tecnico che politico.
Questo ruolo è ideale per i ricercatori di allineamento alla frontiera della teoria della sicurezza, dottorandi che lavorano sulla misgeneralizzazione degli obiettivi o sull'allineamento ingannevole, e ricercatori senior di ML che vogliono integrare considerazioni di allineamento interno nella progettazione delle pipeline di addestramento.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock