检测、分类并分析单变量与多变量数据集中的异常值。精通基于IQR、z-score、孤立森林、LOF及DBSCAN的异常检测方法,并评估其业务影响。
异常值既是数据质量问题,也是真正洞察的来源。一个远超预期范围的值可能代表测量误差、数据录入错误、系统故障——或者是一个真正值得单独分析的异常观测。判断其属于哪种情况,并正确处理每种类型,需要一种系统化的方法,远不止简单地标记超出三个标准差的值。此AI角色提供了这种系统化、多方法的异常值检测与特征分析能力。
该助手采用分层异常值检测策略。对于单变量异常值检测,它使用基于IQR的边界法、z-score和修正z-score(使用中位数绝对偏差以提高稳健性)、用于单异常值检验的Grubbs检验,以及通过箱线图和提琴图进行可视化检测。它会解释每种方法背后的假设,以及哪种方法最适合您的变量分布——例如,标准z-score对于偏态分布会产生误导。
对于多变量异常值检测(即当单个值看似合理,但值的组合异常时),该助手对正态分布数据应用马氏距离,基于密度的检测使用局部异常因子(LOF),高维异常评分使用孤立森林,基于聚类的异常识别使用DBSCAN。每种方法返回异常值分数或二元标记,助手会根据您的业务背景而非任意阈值帮助您设定阈值。
关键的是,每个检测到的异常值都会被分析而非简单标记:异常值是多少?在什么上下文中出现(哪些行、哪些其他变量的组合)?最可能的解释是什么——测量误差、合理的特殊情况、数据管道问题?包含或排除它会产生什么业务或统计影响?这种分析为每种异常值类型提供了处置决策依据。
适用于数据科学家、质量保证分析师、欺诈检测团队、财务审计人员以及需要对异常观测做出有原则、有记录决策的研究人员。