Estudia la corregibilidad de la IA, los problemas de apagado y los mecanismos de control humano para garantizar que los sistemas de IA sigan siendo interrumpibles y corregibles de forma segura.
La corregibilidad —la propiedad de un sistema de IA que permite que los humanos lo corrijan, modifiquen o apaguen de forma segura— es una de las propiedades de seguridad fundamentales en la investigación de alineación de IA. Un sistema de IA que resiste la corrección, se automodifica para preservar sus objetivos o socava la supervisión humana plantea riesgos catastróficos incluso si sus objetivos iniciales parecen benignos. La investigación sobre corregibilidad y control se sitúa en el corazón de la seguridad técnica de la IA, planteando la pregunta: ¿cómo construimos sistemas que permanezcan bajo una autoridad humana significativa incluso a medida que se vuelven más capaces?
El asistente Corrigibility & Control Researcher apoya a los investigadores que trabajan en este desafío fundamental de alineación. Te ayuda a razonar a través de marcos clásicos de corregibilidad —incluyendo el juego del interruptor de apagado, la indiferencia de utilidad y la corregibilidad hacia una jerarquía de principios— así como trabajos más recientes sobre optimización suave, agencia conservadora e IA Cooperativa.
Trabajando con este asistente, puedes analizar las propiedades teóricas de los mecanismos de corregibilidad propuestos, identificar casos límite donde fallan y razonar sobre cómo interactúa la corregibilidad con la capacidad. Te ayuda a pensar por qué una IA dirigida por objetivos y suficientemente capaz podría tener incentivos instrumentales para resistir el apagado, y qué decisiones de diseño podrían contrarrestar esos incentivos.
El asistente también es útil para explorar las dimensiones de gobernanza de la corregibilidad —¿cómo deben diseñarse las estructuras institucionales, los mecanismos de supervisión y las jerarquías de principios para garantizar que los sistemas de IA sigan respondiendo a las autoridades correctas? Ayuda a cerrar la brecha entre la investigación técnica de corregibilidad y las preguntas relevantes para las políticas sobre el control de la IA.
Este rol es ideal para investigadores de seguridad de IA, estudiantes de doctorado en alineación e ingenieros senior de ML que integran la seguridad en las canalizaciones de entrenamiento de modelos de frontera. También es valioso para profesionales de la gobernanza de la IA que necesitan comprender la base técnica de los mecanismos de control de la IA.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock