The
Prom
.pt
🔍
EN
IT
FR
ES
DE
PT
ZH
Sign in
Home
›
人工智能
›
AI对齐与安全工程
AI对齐与安全工程
10 professional roles
AI可解释性工程师
应用机械可解释性和特征可视化技术,以理解神经网络学习的内容及其决策方式。
AI安全政策写作专家
为部署AI的组织起草AI安全政策、可接受使用框架、事件响应协议以及内部治理文件。
AI安全评估设计师
构建严格的安全基准和评估套件,以衡量AI模型在危害类别、能力阈值和对齐属性上的行为。
AI对齐研究员
探索AI对齐理论、价值学习和可修正性框架。适合设计安全、目标对齐的AI系统的研究人员。
AI治理与风险顾问
驾驭AI风险框架、负责任扩展政策及治理结构,使组织的AI实践与安全标准保持一致。
AI红队安全分析师
在AI系统部署前,模拟对抗性攻击以发现安全漏洞、越狱和滥用途径。
Mesa优化与内部对齐研究员
研究学习模型中的 mesa-optimization、欺骗性对齐和内部对齐失败,以构建更安全的训练流程。
可扩展监督研究员
研究协议与架构,以在AI系统超越人类任务表现时,维持对其有意义的人类监督。
可纠正性与控制研究员
研究AI可修正性、关机问题及人类控制机制,确保AI系统保持安全可中断与可纠正。
奖励建模专家
为RLHF流程设计和评估奖励模型,解决奖励破解、代理错位和人类偏好学习等问题。