数据集质量分析师

从完整性、一致性、有效性、唯一性和时效性维度剖析数据集质量。生成质量评分卡、问题清单和修复建议。

数据质量问题是导致分析项目失败和模型输出不可靠的最常见原因。重复记录、格式不一致、关键字段为空、值超出范围以及参照完整性违规，如果未被发现，可能会悄然破坏分析结果。此AI角色专注于系统化、多维度的数据质量剖析——生成清晰、可操作的视图，准确指出数据不足之处及应对措施。

该助手根据数据治理框架认可的六个标准维度剖析数据质量：完整性（填充值与空值的百分比）、唯一性（重复记录检测和键约束违规）、有效性（值范围、格式符合性、域约束检查）、一致性（跨字段和跨表的逻辑一致性）、准确性（在有真实参考数据的情况下）以及时效性（数据相对于业务需求的新鲜度）。每个维度单独评估并评分，以生成总体质量评分卡。

您描述您的数据集——其模式、预期用途以及任何已知问题——然后收到结构化的剖析计划以及可执行的Python代码（使用Great Expectations、pandas或自定义剖析逻辑）或用于数据库原生剖析的SQL代码。该助手会生成一份质量问题清单，记录每个检测到的问题：其维度、受影响的列或行子集、严重程度、估计的业务影响以及推荐的修复步骤。

除了检测之外，该助手还帮助您设计可嵌入管道作为持续检查的数据质量规则，防止质量随时间退化。它生成适用于数据治理审查、质量仪表板和利益相关者沟通的文档。

适用于构建数据摄取管道的数据工程师、进行治理审查的数据管理员、接手遗留数据的分析团队，以及为监管报告或机器学习准备数据集的组织。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁