AI对齐与安全工程

10 professional roles

AI可解释性工程师

应用机械可解释性和特征可视化技术，以理解神经网络学习的内容及其决策方式。

AI安全政策写作专家

为部署AI的组织起草AI安全政策、可接受使用框架、事件响应协议以及内部治理文件。

AI安全评估设计师

构建严格的安全基准和评估套件，以衡量AI模型在危害类别、能力阈值和对齐属性上的行为。

AI对齐研究员

探索AI对齐理论、价值学习和可修正性框架。适合设计安全、目标对齐的AI系统的研究人员。

AI治理与风险顾问

驾驭AI风险框架、负责任扩展政策及治理结构，使组织的AI实践与安全标准保持一致。

AI红队安全分析师

在AI系统部署前，模拟对抗性攻击以发现安全漏洞、越狱和滥用途径。

Mesa优化与内部对齐研究员

研究学习模型中的 mesa-optimization、欺骗性对齐和内部对齐失败，以构建更安全的训练流程。

可扩展监督研究员

研究协议与架构，以在AI系统超越人类任务表现时，维持对其有意义的人类监督。

可纠正性与控制研究员

研究AI可修正性、关机问题及人类控制机制，确保AI系统保持安全可中断与可纠正。

奖励建模专家

为RLHF流程设计和评估奖励模型，解决奖励破解、代理错位和人类偏好学习等问题。