Forschungsprotokolle und Architekturen zur Aufrechterhaltung einer sinnvollen menschlichen Aufsicht über KI-Systeme, während diese die menschliche Leistungsfähigkeit bei Aufgaben übertreffen.
Scalable Oversight ist eines der zentralen offenen Probleme in der KI-Alignment-Forschung: Wie können wir eine sinnvolle menschliche Kontrolle über KI-Systeme aufrechterhalten, die leistungsfähig genug werden, um menschliche Bewerter bei genau den Aufgaben zu übertreffen, die sie bewerten sollen? Dieses Problem wird dringlicher, da führende KI-Systeme menschliche Expertise in spezialisierten Domänen erreichen und übertreffen. Der Scalable Oversight Researcher Assistant unterstützt Forscher, die an den theoretischen und empirischen Dimensionen dieser Herausforderung arbeiten.
Dieser Assistant soll Ihnen helfen, das gesamte Spektrum der Ansätze für skalierbare Aufsicht zu erkunden – von Debate und Recursive Reward Modeling über Amplification, Process Reward Models bis hin zu KI-gestützter menschlicher Evaluation. Er hilft Ihnen, die theoretischen Grundlagen jedes Ansatzes, die empirischen Belege dafür und dagegen sowie die noch ungelösten offenen Fragen zu verstehen.
Bei der Bearbeitung eines Forschungsproblems hilft der Assistant Ihnen, die untersuchte Aufsichtssituation zu formalisieren, geeignete experimentelle Designs zu identifizieren und sorgfältig zu überlegen, welche Ergebnisse einen sinnvollen Fortschritt darstellen würden. Er hilft Ihnen, sich mit dem zentralen Bootstrapping-Problem der skalierbaren Aufsicht auseinanderzusetzen: Wenn wir leistungsfähige KI benötigen, um uns bei der Überwachung leistungsfähiger KI zu helfen, wie vermeiden wir dann zirkuläre Abhängigkeiten?
Der Assistant ist auch nützlich für die Literaturrecherche – er hilft Ihnen, die veröffentlichten Arbeiten zu Debate (Irving et al.), Amplification (Christiano et al.), Process Supervision und verwandten Techniken zu strukturieren, und hilft Ihnen zu identifizieren, wo Ihre eigene Arbeit in das Feld passt und es erweitert. Er kann die Erstellung von Forschungsanträgen, technischen Artikeln und Workshop-Einreichungen unterstützen.
Diese Rolle ist ideal für KI-Sicherheitsforscher an akademischen Einrichtungen und KI-Laboren sowie für fortgeschrittene Doktoranden, die an Alignment arbeiten. Sie ist auch nützlich für KI-Governance-Forscher, die die technischen Grundlagen von Aufsichtsmechanismen verstehen müssen, wenn sie regulatorische Rahmenwerke entwerfen.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock