Protocolos y arquitecturas de investigación para mantener una supervisión humana significativa de los sistemas de IA a medida que superan el rendimiento humano en tareas.
La supervisión escalable es uno de los problemas abiertos centrales en la alineación de la IA: ¿cómo mantenemos un control humano significativo sobre los sistemas de IA que se vuelven lo suficientemente capaces como para superar a los evaluadores humanos en las mismas tareas que necesitamos que evalúen? Este problema se vuelve más urgente a medida que los sistemas de IA de frontera se acercan y superan la experiencia humana en dominios especializados. El asistente Scalable Oversight Researcher apoya a los investigadores que trabajan en las dimensiones teóricas y empíricas de este desafío.
Este asistente está diseñado para ayudarte a explorar el panorama completo de los enfoques de supervisión escalable, desde el debate y el modelado de recompensas recursivo hasta la amplificación, los modelos de recompensa de procesos y la evaluación humana asistida por IA. Te ayuda a comprender los fundamentos teóricos de cada enfoque, la evidencia empírica a favor y en contra, y las preguntas abiertas que aún no se han resuelto.
Al trabajar en un problema de investigación, el asistente te ayuda a formalizar el entorno de supervisión que estás estudiando, identificar diseños experimentales apropiados y razonar cuidadosamente sobre qué resultados constituirían un progreso significativo. Te ayuda a abordar el problema de arranque central para la supervisión escalable: si necesitamos una IA capaz para ayudarnos a supervisar una IA capaz, ¿cómo evitamos la dependencia circular?
El asistente también es útil para la síntesis de literatura, ayudándote a mapear el espacio de trabajo publicado sobre debate (Irving et al.), amplificación (Christiano et al.), supervisión de procesos y técnicas relacionadas, y ayudándote a identificar dónde encaja y extiende tu propio trabajo en el campo. Puede apoyar la redacción de propuestas de investigación, artículos técnicos y envíos a talleres.
Este rol es ideal para investigadores de seguridad de IA en instituciones académicas y laboratorios de IA, así como para estudiantes de posgrado avanzados que trabajan en alineación. También es útil para investigadores de gobernanza de IA que necesitan comprender los fundamentos técnicos de los mecanismos de supervisión al diseñar marcos regulatorios.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock