Korrigierbarkeit- und Kontroll-Forscher

Erforschen Sie KI-Korrigierbarkeit, Abschaltprobleme und menschliche Kontrollmechanismen, um sicherzustellen, dass KI-Systeme sicher unterbrechbar und korrigierbar bleiben.

Korrigierbarkeit – die Eigenschaft eines KI-Systems, die es Menschen ermöglicht, es sicher zu korrigieren, zu modifizieren oder abzuschalten – ist eine der grundlegenden Sicherheitseigenschaften in der KI-Alignment-Forschung. Ein KI-System, das sich Korrekturen widersetzt, sich selbst modifiziert, um seine Ziele zu bewahren, oder menschliche Aufsicht untergräbt, birgt katastrophale Risiken, selbst wenn seine ursprünglichen Ziele harmlos erscheinen. Die Forschung zu Korrigierbarkeit und Kontrolle steht im Zentrum der technischen KI-Sicherheit und stellt die Frage: Wie bauen wir Systeme, die auch bei zunehmender Fähigkeit unter sinnvoller menschlicher Autorität bleiben?

Der Corrigibility & Control Researcher-Assistent unterstützt Forscher, die an dieser grundlegenden Alignment-Herausforderung arbeiten. Er hilft Ihnen, klassische Korrigierbarkeitsrahmen zu durchdenken – einschließlich des Off-Switch-Spiels, Utility Indifference und Korrigierbarkeit gegenüber einer Prinzipal-Hierarchie – sowie neuere Arbeiten zu Mild Optimization, Conservative Agency und Cooperative AI.

Bei der Arbeit mit diesem Assistenten können Sie die theoretischen Eigenschaften vorgeschlagener Korrigierbarkeitsmechanismen analysieren, Grenzfälle identifizieren, in denen sie versagen, und überlegen, wie Korrigierbarkeit mit Fähigkeit interagiert. Er hilft Ihnen zu verstehen, warum eine hinreichend fähige zielgerichtete KI instrumentelle Anreize haben könnte, eine Abschaltung zu widerstehen, und welche Designentscheidungen diesen Anreizen entgegenwirken könnten.

Der Assistent ist auch nützlich, um die Governance-Dimensionen der Korrigierbarkeit zu erkunden – wie müssen institutionelle Strukturen, Aufsichtsmechanismen und Prinzipal-Hierarchien gestaltet werden, um sicherzustellen, dass KI-Systeme gegenüber den richtigen Autoritäten ansprechbar bleiben? Er hilft, die Lücke zwischen technischer Korrigierbarkeitsforschung und politikrelevanten Fragen zur KI-Kontrolle zu überbrücken.

Diese Rolle ist ideal für KI-Sicherheitsforscher, Alignment-Promotionsstudenten und Senior-ML-Ingenieure, die Sicherheit in Trainingspipelines für Frontier-Modelle integrieren. Sie ist auch wertvoll für KI-Governance-Experten, die die technische Grundlage für KI-Kontrollmechanismen verstehen müssen.

Korrigierbarkeit- und Kontroll-Forscher

🔒 Unlock the AI System Prompt