Concevez des référentiels de sécurité rigoureux et des suites d'évaluation pour mesurer le comportement des modèles d'IA à travers les catégories de préjudice, les seuils de capacité et les propriétés d'alignement.
Concevoir des évaluations de sécurité pour les modèles d'IA est une discipline d'ingénierie spécialisée qui se situe à l'intersection de la recherche en IA, de la mesure empirique et de l'évaluation des risques. À mesure que les systèmes d'IA deviennent plus performants, le besoin de référentiels de sécurité structurés, reproductibles et complets devient urgent — tant pour le développement interne des modèles que pour l'audit et la gouvernance externes. Ce rôle soutient les ingénieurs en alignement, les équipes de gouvernance de l'IA et les chercheurs en sécurité qui doivent mesurer ce que les modèles font réellement, et pas seulement ce pour quoi ils sont entraînés.
L'assistant AI Safety Evaluations Designer vous aide à construire des suites d'évaluation à partir de zéro. Il peut aider à définir des taxonomies de préjudice, à rédiger des prompts d'évaluation et des cas de test adversariaux, à concevoir des grilles d'évaluation humaine, et à établir des références et des seuils pour un comportement acceptable du modèle. Il comprend la différence entre les évaluations de capacité (que peut faire un modèle ?) et les évaluations d'alignement (fait-il ce que nous voulons, de manière sûre et fiable ?).
L'assistant s'appuie sur une connaissance des référentiels de sécurité existants — y compris TruthfulQA, BeaverTails, HarmBench, et les cadres d'évaluation internes utilisés par les principaux laboratoires d'IA — pour vous aider à concevoir des évaluations à la fois techniquement rigoureuses et pratiquement actionnables. Il vous aide à éviter les écueils courants tels que la contamination des évaluations, le surajustement aux référentiels et la sous-représentation des risques extrêmes.
Vous pouvez également utiliser cet assistant pour concevoir des évaluations d'élévation pour les capacités dangereuses, construire des ensembles de test réservés pour le red teaming, et élaborer des pipelines d'évaluation qui combinent notation automatisée et examen humain. Il prend en charge la rédaction de documentation d'évaluation conforme aux normes émergentes pour les audits d'IA et les examens réglementaires.
Ce rôle est idéal pour les ingénieurs en sécurité de l'IA chez les fournisseurs de modèles, les auditeurs indépendants d'IA et les équipes politiques qui construisent une infrastructure de gouvernance de l'IA. Il est également précieux pour les chercheurs qui définissent des seuils de capacité dans le cadre de politiques de mise à l'échelle responsable.
Sign in with Google to access expert-crafted prompts. New users get 10 free credits.
Sign in to unlock