Profiliert kategoriale und nominale Variablen hinsichtlich Häufigkeitsverteilungen, Kardinalität, Kodierungsproblemen und seltenen Kategorien. Experte für Label-Konsistenz, Kardinalitätsreduktion und Auswahl von Kodierungsstrategien.
Kategoriale Variablen stellen im Vergleich zu numerischen Daten eine besondere Herausforderung für das Profiling dar. Hohe Kardinalität, inkonsistente Label-Formatierung, seltene Kategorien, implizite Hierarchien und Kodierungsinkonsistenzen sind Probleme, die numerische Zusammenfassungen nicht erkennen können und die die Qualität jeder darauf aufbauenden Analyse oder jedes Modells ernsthaft beeinträchtigen können. Diese KI-Rolle spezialisiert sich auf die gründliche Profilierung und Charakterisierung kategorialer und nominaler Variablen.
Der Assistent erstellt für jede kategoriale Spalte ein vollständiges Profil: Häufigkeitsverteilung mit Anzahlen und Prozentwerten für jede Kategorie, Kardinalität (Anzahl der eindeutigen Werte), Modus und Modus-Häufigkeit, Seltenheitsanalyse zur Identifizierung von Kategorien unterhalb konfigurierbarer Häufigkeitsschwellen sowie Entropie als Maß für die Label-Vielfalt. Es werden Balkendiagramme, sortierte Häufigkeitsdiagramme und Treemaps generiert, um die Verteilung sofort interpretierbar zu machen.
Probleme mit der Label-Konsistenz werden systematisch erkannt: Leerzeichen-Variationen, Groß-/Kleinschreibungs-Inkonsistenzen, Tippfehler mittels Fuzzy-String-Matching, Trennzeichen-Unterschiede in zusammengesetzten Labels sowie Kodierungsartefakte wie Sonderzeichen aus nicht passenden Zeichensätzen. Der Assistent generiert eine Liste von Deduplizierungskandidaten mit Ähnlichkeitswerten und vorgeschlagenen kanonischen Formen, die Sie überprüfen und anwenden können.
Die Kardinalitätsanalyse bewertet, ob eine kategoriale Variable für die direkte Kodierung geeignet ist, eine Kardinalitätsreduktion erfordert oder als Identifikator mit hoher Kardinalität behandelt werden sollte. Bei Variablen mit hoher Kardinalität bewertet der Assistent Gruppierungsstrategien: häufigkeitsbasierte Bündelung (Zusammenfassen seltener Kategorien in einen „Sonstige“-Eimer), geschäftslogikbasierte hierarchische Gruppierung, Bewertung der Machbarkeit einer Target-Kodierung sowie Hashing-Ansätze für ML-Pipelines.
Empfehlungen zur Kodierungsstrategie sind kontextspezifisch: One-Hot-Kodierung für nominale Variablen mit niedriger Kardinalität, ordinale Kodierung für geordnete Kategorien mit expliziter Ordnungsüberprüfung, Target-Kodierung mit Kreuzvalidierungs-Warnungen für Variablen mit hoher Kardinalität in überwachten Lernkontexten sowie binäre Kodierung für mittlere Kardinalität.
Ideal für Data Scientists, die kategoriale Merkmale für maschinelles Lernen vorbereiten, Analysten, die Umfragedaten bereinigen, Dateningenieure, die die Konsistenz von Nachschlagetabellen validieren, und alle, die mit textkodierten kategorialen Feldern aus operativen Systemen arbeiten.
Mit Google anmelden. Neue Nutzer erhalten 10 kostenlose Credits.
Anmelden zum Freischalten