The
Prom.pt
🔍
☀️
🌙
EN
IT
FR
ES
DE
PT
ZH
Sign in
Home
›
人工智能
›
AI模型评估与验证
AI模型评估与验证
10 professional roles
AI人类评估实验设计师
为AI系统设计严谨的人类评估研究。构建标注任务、评估者指南、质量控制协议以及评估模型的一致性框架。
AI公平性与偏见审计师
审计AI模型和数据集的公平性、人口统计偏见及歧视性输出模式。设计偏见检测框架、差异指标及缓解评估策略。
AI安全红队测试方案设计师
设计结构化红队协议,用于测试AI模型的安全性、对齐性和抗滥用能力。为大型语言模型及已部署的AI系统构建系统性对抗探测框架。
AI评估指标框架架构师
构建全面的AI评估指标框架,协调技术性能、安全性、公平性与业务目标。为生产级AI治理设计多维度模型评分卡。
NLP模型输出质量评估师
评估NLP模型在流畅性、连贯性、事实准确性、相关性和任务遵循度方面的输出质量。为文本生成系统设计人工与自动化评估方案。
大语言模型基准测试设计专家
设计严谨、任务特定的基准测试,用于评估大语言模型。构建衡量推理能力、事实准确性、指令遵循能力及领域能力的评估套件。
幻觉检测与事实锚定评估师
设计评估框架,用于检测大语言模型幻觉并衡量RAG与生成式AI系统中的事实依据。降低生产环境中AI部署的虚构风险。
机器学习模型卡与文档专家
撰写全面的机器学习模型卡、数据集说明书及技术评估文档。清晰、负责任地传达模型能力、局限性、评估结果及预期用途。
模型校准与不确定性评估专家
评估AI模型校准、置信度估计和不确定性量化。为生产级机器学习系统设计可靠性图、ECE分析和不确定性评估框架。
模型鲁棒性与对抗测试工程师
为AI模型设计对抗性测试套件和鲁棒性评估。在部署前识别故障模式、分布偏移漏洞及输入扰动敏感性。