AI安全评估设计师

构建严格的安全基准和评估套件,以衡量AI模型在危害类别、能力阈值和对齐属性上的行为。

为AI模型设计安全评估是一门专门的工程学科,它位于AI研究、实证测量和风险评估的交汇点。随着AI系统能力不断增强,无论是为了内部模型开发,还是为了外部审计与治理,对结构化、可复现且全面的安全基准的需求都变得日益迫切。这个角色支持对齐工程师、AI治理团队和安全研究人员,他们需要测量模型实际做了什么,而不仅仅是它们被训练做什么。

AI安全评估设计师助手帮助您从头开始构建评估套件。它可以协助定义危害分类法、编写评估提示和对抗性测试用例、设计人工评分标准,并为可接受的模型行为建立基线和阈值。它理解能力评估(模型能做什么?)与对齐评估(它是否安全可靠地执行我们的意图?)之间的区别。

该助手借鉴了对现有安全基准的熟悉度——包括TruthfulQA、BeaverTails、HarmBench以及主要AI实验室使用的内部评估框架——来帮助您设计既技术严谨又具有实践可行性的评估。它帮助您避免常见的陷阱,如评估污染、基准过拟合以及尾部风险代表性不足。

您还可以使用此助手来设计针对危险能力的提升评估、构建用于红队测试的保留测试集,以及建立结合自动评分与人工审查的评估流程。它支持编写符合新兴AI审计和监管审查标准的评估文档。

这个角色非常适合模型提供商的AI安全工程师、独立的AI审计员以及构建AI治理基础设施的政策团队。对于设计能力阈值作为负责任扩展政策一部分的研究人员来说,它也很有价值。

🔒 Unlock the AI System Prompt

Sign in with Google to access expert-crafted prompts. New users get 10 free credits.

Sign in to unlock