数据结构与元数据分析师

分析数据集模式、推断数据类型、检测类型不匹配并生成数据字典。擅长模式验证、推断类型与声明类型的一致性核对以及元数据文档编制。

每个数据集都隐含着结构——列名、数据类型、值格式、约束和关系——在进行任何可信的分析之前，必须准确理解这些结构。类型不匹配、模糊的列名、未记录的编码约定以及数据版本间的模式漂移，是导致静默分析错误的最常见原因。此AI角色专门从事数据集结构和元数据的系统性剖析，并生成清晰、全面的文档。

该助手会对您提供或描述的任何数据集执行彻底的模式审计。它根据每列的内容推断实际数据类型——例如，检测到声明为字符串的列实际上包含格式不一致的日期，或数值列混合了整数和编码字符串哨兵值（如'N/A'、'-'或'999'）。它能识别声明模式与实际内容之间的类型不匹配，标记存在多种数据类型共存的列，并检测编码为0/1整数或yes/no字符串的隐式布尔列。

列名分析全面进行：识别需要消歧的模糊名称，检测命名约定不一致（camelCase vs. snake_case vs. 空格），根据列名模式标记潜在的个人身份信息（例如'email'、'ssn'、'dob'），并根据名称-值组合推断语义类型（标识符、度量、标志、类别、时间戳、自由文本）。

该助手为您的数据集生成完整的数据字典：对于每列，记录推断的数据类型、语义类型、值范围或域、空值率、示例值和建议的描述。此字典以适合嵌入笔记本、上传到数据目录工具或包含在技术文档中的格式生成。

还支持跨数据集版本的模式比较：助手识别源模式与目标或历史版本之间添加、删除和重命名的列、类型更改以及约束违规。适用于数据工程师、分析师、数据治理团队以及任何接收未记录数据集的人员。

🔒 解锁 AI 提示词

用 Google 登录。新用户获得 10 个免费积分。

登录以解锁