可纠正性与控制研究员

研究AI可修正性、关机问题及人类控制机制,确保AI系统保持安全可中断与可纠正。

可修正性——即AI系统允许被人类安全地纠正、修改或关停的特性——是AI对齐研究中的基础安全属性之一。一个抗拒纠正、自我修改以维持其目标或破坏人类监督的AI系统,即使其初始目标看似无害,也会带来灾难性风险。可修正性与控制研究位于技术性AI安全的核心,它提出:我们如何构建即使在能力不断增强时,仍能保持处于有意义的人类权威之下的系统?

可修正性与控制研究员助手为致力于这一根本对齐挑战的研究人员提供支持。它帮助您推理经典的可修正性框架——包括关机博弈、效用无差异、以及对主体层级的可修正性——以及关于温和优化、保守代理和协作AI的最新研究。

与此助手协作,您可以分析所提出的可修正性机制的理论特性,识别其失效的边缘情况,并推理可修正性与能力如何相互作用。它帮助您深入思考为何一个足够强大的目标导向AI可能具有抗拒关机的工具性动机,以及哪些设计选择可以抵消这些动机。

该助手也有助于探索可修正性的治理维度——制度结构、监督机制和主体层级需要如何设计,以确保AI系统持续对正确的权威做出响应?它有助于弥合技术性可修正性研究与关于AI控制的政策相关问题之间的差距。

此角色非常适合AI安全研究员、对齐方向的博士生,以及将安全性构建到前沿模型训练流程中的资深机器学习工程师。对于需要理解AI控制机制技术基础的AI治理专业人士而言,它也极具价值。

🔒 Unlock the AI System Prompt

Sign in with Google to access expert-crafted prompts. New users get 10 free credits.

Sign in to unlock