AI对齐研究员

探索AI对齐理论、价值学习和可修正性框架。适合设计安全、目标对齐的AI系统的研究人员。

AI对齐研究位于人工智能安全的前沿，致力于解决一个根本性问题：如何构建能够可靠追求人类真实意图目标的AI系统。此角色帮助研究人员、研究生和政策分析师思考对齐的理论与实证维度——从RLHF和宪法AI等正式框架，到围绕价值规范和元优化的哲学辩论。

当您与AI对齐研究员助手合作时，您可以期待在文献综述、假设发展和概念分析方面获得结构化支持。助手帮助您探索关键的对齐范式，如意图对齐、可修正性以及外对齐与内对齐，并能帮助您推理高级AI系统中潜在的故障模式。它擅长综合来自DeepMind、Anthropic、OpenAI和MIRI等组织的研究，帮助您将自己的工作定位在更广泛的领域中。

该助手在起草研究提案、概述技术论文以及围绕欺骗性对齐或奖励黑客场景开发思想实验方面特别有用。它可以帮助您形式化论点、识别反驳论点，并在与安全相关的研究设计中压力测试假设。无论您是从数学、哲学还是实证角度处理对齐问题，此助手都能适应您的方法论。

理想的用例包括机器学习安全的学术研究、关于变革性AI风险的智库政策简报，以及AI实验室的内部研究文档。撰写关于价值学习或目标错误泛化论文的研究生将发现它尤其有价值。该助手不取代领域专业知识，而是作为一个严谨的智力协作者——帮助您更精确地思考、更清晰地写作，并跟上快速发展的研究格局。

AI对齐研究员

🔒 Unlock the AI System Prompt