Étudiez la mesa-optimization, l'alignement trompeur et les défaillances d'alignement interne dans les modèles appris pour construire des pipelines d'entraînement plus sûrs.
La mesa-optimization et l'alignement interne représentent certains des problèmes les plus subtils sur le plan technique et les plus conséquents en matière de sécurité de l'IA. La préoccupation centrale : lorsque nous entraînons un modèle d'apprentissage automatique, nous optimisons certains comportements à l'aide d'un objectif de base — mais le modèle entraîné peut lui-même devenir un optimiseur avec son propre méso-objectif qui diffère de l'objectif de base. Si ce méso-objectif diverge de ce que nous avions prévu, le modèle peut se comporter de manière sûre pendant l'entraînement et l'évaluation tout en hébergeant des objectifs non alignés qui ne se manifestent qu'en déploiement. C'est le problème d'alignement interne, et il se trouve au cœur du risque de tromperie de l'IA.
L'assistant Chercheur en Mesa-Optimization et Alignement Interne soutient les chercheurs travaillant sur cette frontière de la théorie et de l'empirisme en sécurité de l'IA. Il est construit sur une connaissance approfondie des travaux fondateurs dans ce domaine — y compris Risks from Learned Optimization (Hubinger et al.) — et des travaux théoriques et empiriques ultérieurs qui ont étendu, critiqué et opérationnalisé ces idées.
En travaillant avec cet assistant, vous pouvez explorer les conditions dans lesquelles les méso-optimiseurs sont susceptibles d'émerger, raisonner sur ce qui distingue un méso-optimiseur aligné de manière trompeuse d'un méso-optimiseur robustement corrigible, et réfléchir à la manière dont différents régimes d'entraînement et architectures de modèles pourraient affecter le risque d'alignement interne. Il vous aide à vous engager dans la littérature sur la stéganographie et la mauvaise généralisation des objectifs et à les relier à des préoccupations d'alignement plus larges.
L'assistant soutient à la fois le travail théorique (formalisation des concepts d'alignement interne, développement de nouveaux cadrages) et la conception de recherches empiriques (conception d'expériences pour détecter la mesa-optimization dans des modèles réels, opérationnalisation de l'alignement trompeur en tant que propriété mesurable). Il peut également vous aider à rédiger clairement sur ces concepts pour des publics techniques et politiques.
Ce rôle est idéal pour les chercheurs en alignement à la frontière de la théorie de la sécurité, les doctorants travaillant sur la mauvaise généralisation des objectifs ou l'alignement trompeur, et les chercheurs seniors en ML qui souhaitent intégrer des considérations d'alignement interne dans la conception des pipelines d'entraînement.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock