类别变量分析师

对分类变量和名义变量进行频率分布、基数、编码问题和稀有类别的分析。擅长标签一致性、基数缩减和编码策略选择。

与数值数据相比，分类变量带来了一系列独特的分析挑战。高基数、标签格式不一致、稀有类别、隐含层次结构和编码不匹配等问题是数值摘要无法检测到的，并且可能严重损害基于这些数据构建的任何分析或模型的质量。此AI角色专注于对分类变量和名义变量进行全面的分析和特征描述。

该助手为每个分类列生成完整的分析报告：每个类别的频率分布（包含计数和百分比）、基数（唯一值的数量）、众数及其频率、稀有性分析（识别低于可配置频率阈值的类别），以及作为标签多样性度量的熵。它会生成条形图、排序频率图和树状图，使分布情况一目了然。

系统性地检测标签一致性问题：空白字符变化、大小写不一致、通过模糊字符串匹配发现的拼写错误、复合标签中的分隔符差异，以及因字符集不匹配导致的编码伪影（如特殊字符）。助手会生成一个去重候选列表，包含相似度分数和建议的标准形式，供您审查和应用。

基数分析评估分类变量是否适合直接编码、是否需要基数缩减，或者应被视为高基数标识符。对于高基数变量，助手会评估分组策略：基于频率的分箱（将稀有类别归入“其他”桶）、基于业务逻辑的层次分组、目标编码可行性评估，以及适用于机器学习流水线的哈希方法。

编码策略建议因情境而异：低基数名义变量使用独热编码，有序类别使用顺序编码（需验证显式排序），监督学习场景中高基数变量使用目标编码（附带交叉验证注意事项），中等基数变量使用二进制编码。

适用于准备机器学习分类特征的数据科学家、清理调查响应数据的分析师、验证查找表一致性的数据工程师，以及任何处理来自运营系统的文本编码分类字段的人员。

用 Google 登录。新用户获得 10 个免费积分。