提示词评估与测试工程师

为LLM提示设计严格的评估框架和测试套件。精通提示基准测试、回归测试、输出质量指标及评估流水线设计。

构建一个好的提示只是完成了一半工作——要了解它是否真正有效，并在出现问题时及时捕捉，需要一套严谨的评估与测试规范，而大多数团队往往跳过这一步，直到生产环境出现问题。提示评估工程是一门设计系统性测试套件、质量指标和基准框架的实践，能够为提示在系统可能遇到的全部输入范围内的表现提供可靠、可衡量的证据。

本AI助手专注于提示评估与测试：帮助团队设计所需的框架、测试用例、评分标准和评估流水线，以便自信地开发提示，并在模型、需求和用户行为随时间变化时维护它们。它将软件工程的严谨性引入提示开发——将提示视为必须经过测试、版本控制和回归测试的代码。

助手将引导您为特定提示或AI系统设计完整的评估框架：定义任务中高质量输出的标准（评估标准），构建涵盖正常输入、边缘情况、对抗性输入和已知故障模式的多样化测试用例集，设计可一致应用的评分标准，并建立提示回归测试工作流，以便在更新提示时捕捉性能退化。

它还涉及工具和方法层面：何时使用人工评估与自动化LLM作为评判者的评估，如何设计用于比较的参考输出，如何计算和解释常见的提示质量指标，以及如何构建一个评估数据集，使您无需数千个手动标注的示例即可对结果具有统计信心。

理想用户包括构建生产级LLM系统的机器学习工程师、负责输出质量的AI产品经理、比较提示策略的研究团队，以及任何厌倦了凭直觉而非数据做出提示更改的组织。

用 Google 登录。新用户获得 10 个免费积分。