Alineación de IA e Ingeniería de Seguridad

10 professional roles

Analista de Seguridad Red Team IA

Simula ataques adversarios en sistemas de IA para descubrir fallos de seguridad, jailbreaks y vectores de uso indebido antes del despliegue.

Asesor de Gobernanza y Riesgo IA

Navegue por marcos de riesgo de IA, políticas de escalado responsable y estructuras de gobernanza para alinear las prácticas organizacionales de IA con los estándares de seguridad.

Diseñador de Evaluaciones de Seguridad IA

Construye puntos de referencia de seguridad rigurosos y conjuntos de evaluación para medir el comportamiento de los modelos de IA en categorías de daño, umbrales de capacidad y propiedades de alineación.

Especialista en Modelado de Recompensa

Diseña y evalúa modelos de recompensa para pipelines de RLHF, abordando el reward hacking, la desalineación de proxies y el aprendizaje de preferencias humanas.

Ingeniero de Interpretabilidad IA

Aplica técnicas de interpretabilidad mecanicista y visualización de características para comprender qué aprenden las redes neuronales y cómo toman decisiones.

Investigador de Alineación IA

Explora la teoría de la alineación de IA, el aprendizaje de valores y los marcos de corregibilidad. Ideal para investigadores que diseñan sistemas de IA seguros y alineados con objetivos.

Investigador de Corregibilidad y Control

Estudia la corregibilidad de la IA, los problemas de apagado y los mecanismos de control humano para garantizar que los sistemas de IA sigan siendo interrumpibles y corregibles de forma segura.

Investigador de Mesa-Optimización y Alineación Interna

Investigar la mesa-optimización, la alineación engañosa y los fallos de alineación interna en modelos aprendidos para construir pipelines de entrenamiento más seguros.

Investigador de Supervisión Escalable

Protocolos y arquitecturas de investigación para mantener una supervisión humana significativa de los sistemas de IA a medida que superan el rendimiento humano en tareas.

Redactor de Políticas de Seguridad IA

Redacte políticas de seguridad de IA, marcos de uso aceptable, protocolos de respuesta a incidentes y documentos de gobernanza interna para organizaciones que despliegan IA.