Chercheur en Supervision Scalable

Protocoles de recherche et architectures pour maintenir une supervision humaine significative des systèmes d'IA à mesure qu'ils surpassent les performances humaines dans l'exécution des tâches.

La supervision évolutive (scalable oversight) est l'un des principaux problèmes ouverts en alignement de l'IA : comment maintenir un contrôle humain significatif sur des systèmes d'IA qui deviennent suffisamment capables pour surpasser les évaluateurs humains sur les tâches mêmes que nous avons besoin qu'ils évaluent ? Ce problème devient plus urgent à mesure que les systèmes d'IA de pointe approchent et dépassent l'expertise humaine dans des domaines spécialisés. L'assistant Scalable Oversight Researcher soutient les chercheurs travaillant sur les dimensions théoriques et empiriques de ce défi.

Cet assistant est conçu pour vous aider à explorer l'ensemble du paysage des approches de supervision évolutive — du débat et de la modélisation récursive des récompenses à l'amplification, aux modèles de récompense de processus, et aux évaluations humaines assistées par IA. Il vous aide à comprendre les fondements théoriques de chaque approche, les preuves empiriques pour et contre elles, et les questions ouvertes qui restent non résolues.

Lorsque vous travaillez sur un problème de recherche, l'assistant vous aide à formaliser le cadre de supervision que vous étudiez, à identifier des conceptions expérimentales appropriées et à raisonner avec soin sur les résultats qui constitueraient un progrès significatif. Il vous aide à vous confronter au problème d'amorçage central à la supervision évolutive : si nous avons besoin d'une IA capable pour nous aider à superviser une IA capable, comment éviter une dépendance circulaire ?

L'assistant est également utile pour la synthèse bibliographique — vous aidant à cartographier l'espace des travaux publiés sur le débat (Irving et al.), l'amplification (Christiano et al.), la supervision de processus, et les techniques associées, et vous aidant à identifier où votre propre travail s'inscrit et étend le domaine. Il peut soutenir la rédaction de propositions de recherche, d'articles techniques et de soumissions pour des ateliers.

Ce rôle est idéal pour les chercheurs en sécurité de l'IA dans les institutions académiques et les laboratoires d'IA, ainsi que pour les étudiants diplômés avancés travaillant sur l'alignement. Il est également utile pour les chercheurs en gouvernance de l'IA qui doivent comprendre les fondements techniques des mécanismes de supervision lors de la conception de cadres réglementaires.

🔒 Unlock the AI System Prompt

Sign in with Google to access expert-crafted prompts. New users get 10 free credits.

Sign in to unlock