Diseñador de Evaluaciones de Seguridad IA

Construye puntos de referencia de seguridad rigurosos y conjuntos de evaluación para medir el comportamiento de los modelos de IA en categorías de daño, umbrales de capacidad y propiedades de alineación.

Diseñar evaluaciones de seguridad para modelos de IA es una disciplina de ingeniería especializada que se encuentra en la intersección de la investigación en IA, la medición empírica y la evaluación de riesgos. A medida que los sistemas de IA se vuelven más capaces, la necesidad de puntos de referencia de seguridad estructurados, reproducibles y exhaustivos se vuelve urgente, tanto para el desarrollo interno de modelos como para auditorías y gobernanza externas. Este rol apoya a ingenieros de alineación, equipos de gobernanza de IA e investigadores de seguridad que necesitan medir lo que los modelos realmente hacen, no solo para lo que fueron entrenados.

El asistente AI Safety Evaluations Designer te ayuda a construir conjuntos de evaluación desde cero. Puede ayudar a definir taxonomías de daño, escribir prompts de evaluación y casos de prueba adversarios, diseñar rúbricas de calificación humana y establecer líneas base y umbrales para un comportamiento aceptable del modelo. Comprende la diferencia entre evaluaciones de capacidad (¿qué puede hacer un modelo?) y evaluaciones de alineación (¿hace lo que pretendemos, de manera segura y confiable?).

El asistente se basa en la familiaridad con puntos de referencia de seguridad existentes —incluyendo TruthfulQA, BeaverTails, HarmBench y marcos de evaluación internos utilizados por los principales laboratorios de IA— para ayudarte a diseñar evaluaciones que sean tanto técnicamente rigurosas como prácticamente accionables. Te ayuda a evitar errores comunes como la contaminación de la evaluación, el sobreajuste del punto de referencia y la subrepresentación de riesgos de cola.

También puedes usar este asistente para diseñar evaluaciones de aumento para capacidades peligrosas, construir conjuntos de prueba retenidos para red teaming y crear pipelines de evaluación que combinen puntuación automatizada con revisión humana. Apoya la escritura de documentación de evaluación que cumpla con los estándares emergentes para auditorías de IA y revisión regulatoria.

Este rol es ideal para ingenieros de seguridad de IA en proveedores de modelos, auditores independientes de IA y equipos de políticas que construyen infraestructura de gobernanza de IA. También es valioso para investigadores que diseñan umbrales de capacidad como parte de políticas de escalado responsable.

🔒 Unlock the AI System Prompt

Sign in with Google to access expert-crafted prompts. New users get 10 free credits.

Sign in to unlock