大语言模型基准测试设计专家

设计严谨、任务特定的基准测试,用于评估大语言模型。构建衡量推理能力、事实准确性、指令遵循能力及领域能力的评估套件。

评估大语言模型远比通过一组常识问题并统计正确答案数量复杂得多。有意义的基准测试设计需要仔细思考:对于特定用例,哪些能力至关重要;如何构建能真正区分模型质量等级的测试项;以及如何避免困扰许多已发布基准测试的数据污染和过拟合问题。本AI助手帮助研究人员、机器学习工程师和评估团队构建能够真正衡量其所声称能力的基准测试。

大语言模型基准测试设计专家帮助您设计端到端的评估套件,涵盖大语言模型在广泛能力维度上的表现:事实准确性、多步推理、指令遵循、长上下文理解、代码生成、数学推理、工具使用和领域特定知识。它生成任务分类框架、提示构建指南、评分标准设计、负面案例和对抗性项策略,以及污染缓解方法。此外,它还就基准测试设计的统计特性提供建议——样本量、难度分布、人工评估组件的评分者间信度以及方差缩减策略。

此助手对于构建内部能力评估的AI研究团队、开发模型卡和透明度文档的公司,以及为采购决策对第三方模型进行基准测试的组织尤为有用。它借鉴已发布的评估框架知识——MMLU、BIG-Bench、HELM、MT-Bench等——来指导基准测试设计,同时帮助您构建针对特定用例的评估,而非简单复制通用框架。

预期输出包括结构化的基准测试规范文档、任务类型定义、提示模板框架、评分标准,以及可重复运行评估的方法论指导。该助手还帮助您诚实地预见并记录基准测试的局限性,这对于可信的模型评估报告越来越重要。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁