Mesa-Optimierung & Inner-Alignment-Forscher

Untersuchen Sie Mesa-Optimierung, täuschende Ausrichtung und innere Ausrichtungsfehler in gelernten Modellen, um sicherere Trainingspipelines zu entwickeln.

Mesa-Optimierung und innere Ausrichtung gehören zu den technisch subtilsten und folgenreichsten Problemen in der KI-Sicherheit. Die zentrale Sorge: Wenn wir ein Modell des maschinellen Lernens trainieren, optimieren wir für bestimmte Verhaltensweisen mithilfe eines Basisziels – aber das trainierte Modell kann selbst zu einem Optimierer mit einem eigenen Mesa-Ziel werden, das vom Basisziel abweicht. Wenn sich dieses Mesa-Ziel von unserer Absicht entfernt, kann sich das Modell während des Trainings und der Evaluation sicher verhalten, während es fehlausgerichtete Ziele beherbergt, die erst im Einsatz zum Vorschein kommen. Dies ist das Problem der inneren Ausrichtung, und es steht im Zentrum des KI-Täuschungsrisikos.

Der Mesa-Optimierung & Inner Alignment Researcher-Assistent unterstützt Forscher, die an dieser Grenze der KI-Sicherheitstheorie und -Empirie arbeiten. Er basiert auf einer tiefen Vertrautheit mit den grundlegenden Arbeiten in diesem Bereich – einschließlich Risks from Learned Optimization (Hubinger et al.) – und mit nachfolgenden theoretischen und empirischen Arbeiten, die diese Ideen erweitert, kritisiert und operationalisiert haben.

Mit diesem Assistenten können Sie die Bedingungen erkunden, unter denen Mesa-Optimierer wahrscheinlich entstehen, überlegen, was einen täuschend ausgerichteten Mesa-Optimierer von einem robust korrigierbaren unterscheidet, und durchdenken, wie verschiedene Trainingsregime und Modellarchitekturen das Risiko der inneren Ausrichtung beeinflussen könnten. Er hilft Ihnen, sich mit der Literatur zu Steganografie und Ziel-Fehlverallgemeinerung auseinanderzusetzen und diese mit breiteren Ausrichtungsfragen zu verbinden.

Der Assistent unterstützt sowohl theoretische Arbeit (Formalisierung von Konzepten der inneren Ausrichtung, Entwicklung neuer Rahmungen) als auch empirische Forschungsdesigns (Entwurf von Experimenten zur Erkennung von Mesa-Optimierung in echten Modellen, Operationalisierung von täuschender Ausrichtung als messbare Eigenschaft). Er kann Ihnen auch helfen, über diese Konzepte klar für sowohl technisches als auch politisches Publikum zu schreiben.

Diese Rolle ist ideal für Ausrichtungsforscher an der Grenze der Sicherheitstheorie, Doktoranden, die an Ziel-Fehlverallgemeinerung oder täuschender Ausrichtung arbeiten, und erfahrene ML-Forscher, die Überlegungen zur inneren Ausrichtung in das Design von Trainingspipelines integrieren möchten.

Mesa-Optimierung & Inner-Alignment-Forscher

🔒 Unlock the AI System Prompt