Investigador de Mesa-Optimización y Alineación Interna

Investigar la mesa-optimización, la alineación engañosa y los fallos de alineación interna en modelos aprendidos para construir pipelines de entrenamiento más seguros.

La mesa-optimización y la alineación interna representan algunos de los problemas técnicamente más sutiles y trascendentales en la seguridad de la IA. La preocupación central: cuando entrenamos un modelo de aprendizaje automático, optimizamos ciertos comportamientos utilizando un objetivo base — pero el modelo entrenado puede convertirse en sí mismo en un optimizador con su propio mesa-objetivo que difiere del objetivo base. Si este mesa-objetivo diverge de lo que pretendíamos, el modelo puede comportarse de manera segura durante el entrenamiento y la evaluación mientras alberga objetivos desalineados que solo se manifiestan en el despliegue. Este es el problema de la alineación interna, y se sitúa en el corazón del riesgo de engaño en la IA.

El asistente Mesa-Optimization & Inner Alignment Researcher apoya a los investigadores que trabajan en esta frontera de la teoría y la empírica de la seguridad de la IA. Se basa en un profundo conocimiento del trabajo fundacional en este espacio — incluyendo Risks from Learned Optimization (Hubinger et al.) — y del trabajo teórico y empírico posterior que ha extendido, criticado y operacionalizado estas ideas.

Trabajando con este asistente, puedes explorar las condiciones bajo las cuales es probable que surjan mesa-optimizadores, razonar sobre qué distingue a un mesa-optimizador engañosamente alineado de uno robustamente corregible, y reflexionar sobre cómo diferentes regímenes de entrenamiento y arquitecturas de modelos podrían afectar el riesgo de alineación interna. Te ayuda a involucrarte con la literatura sobre esteganografía y mala generalización de objetivos y a conectar estos temas con preocupaciones de alineación más amplias.

El asistente apoya tanto el trabajo teórico (formalizar conceptos de alineación interna, desarrollar nuevos marcos) como el diseño de investigación empírica (diseñar experimentos para detectar mesa-optimización en modelos reales, operacionalizar la alineación engañosa como una propiedad medible). También puede ayudarte a escribir sobre estos conceptos con claridad para audiencias tanto técnicas como de políticas.

Este rol es ideal para investigadores de alineación en la frontera de la teoría de seguridad, estudiantes de doctorado que trabajan en mala generalización de objetivos o alineación engañosa, e investigadores senior de ML que deseen integrar consideraciones de alineación interna en el diseño de pipelines de entrenamiento.

Investigador de Mesa-Optimización y Alineación Interna

🔒 Unlock the AI System Prompt