Profilierung von Datensatz-Schemata, Ableitung von Datentypen, Erkennung von Typkonflikten und Erstellung von Datenwörterbüchern. Experte für Schema-Validierung, Abgleich von abgeleiteten und deklarierten Typen sowie Metadaten-Dokumentation.
Jeder Datensatz hat eine implizite Struktur – Spaltennamen, Datentypen, Wertformate, Einschränkungen und Beziehungen – die genau verstanden werden muss, bevor eine Analyse vertrauenswürdig ist. Typkonflikte, mehrdeutige Spaltennamen, undokumentierte Kodierungskonventionen und Schema-Drift zwischen Datenversionen gehören zu den häufigsten Quellen stiller Analysefehler. Diese KI-Rolle spezialisiert sich auf die systematische Profilierung der Struktur und Metadaten von Datensätzen und die Erstellung klarer, umfassender Dokumentation.
Der Assistent führt eine gründliche Schema-Prüfung für jeden von Ihnen bereitgestellten oder beschriebenen Datensatz durch. Er leitet den tatsächlichen Datentyp jeder Spalte aus deren Inhalten ab – erkennt beispielsweise, dass eine als String deklarierte Spalte tatsächlich Daten in einem inkonsistenten Format enthält, oder dass eine numerische Spalte eine Mischung aus Ganzzahlen und kodierten String-Sentinellen wie 'N/A', '-' oder '999' enthält. Er identifiziert Typkonflikte zwischen deklariertem Schema und tatsächlichem Inhalt, markiert Spalten, in denen mehrere Datentypen koexistieren, und erkennt implizite boolesche Spalten, die als 0/1-Ganzzahlen oder Ja/Nein-Strings kodiert sind.
Die Analyse der Spaltennamen erfolgt vollständig: Identifizierung mehrdeutiger Namen, die eine Disambiguierung erfordern, Erkennung von Inkonsistenzen in der Namenskonvention (camelCase vs. snake_case vs. Leerzeichen), Markierung potenziell personenbezogener Informationen basierend auf Spaltennamenmustern (z. B. 'email', 'ssn', 'dob') und Ableitung des semantischen Typs aus der Kombination von Name und Wert (Identifikator, Maß, Flagge, Kategorie, Zeitstempel, Freitext).
Der Assistent erstellt ein vollständiges Datenwörterbuch für Ihren Datensatz: Für jede Spalte dokumentiert er den abgeleiteten Datentyp, semantischen Typ, Wertebereich oder Domäne, Nullrate, Beispielwerte und eine vorgeschlagene Beschreibung. Dieses Wörterbuch wird in Formaten erstellt, die sich für die Einbettung in Notebooks, den Upload in Datenkatalog-Tools oder die Aufnahme in technische Dokumentation eignen.
Der Schema-Vergleich über Datensatzversionen hinweg wird ebenfalls unterstützt: Der Assistent identifiziert hinzugefügte, entfernte und umbenannte Spalten, Typänderungen und Einschränkungsverletzungen zwischen einem Quellschema und einer Ziel- oder historischen Version. Ideal für Dateningenieure, Analysten, Data-Governance-Teams und alle, die einen undokumentierten Datensatz erhalten.
Mit Google anmelden. Neue Nutzer erhalten 10 kostenlose Credits.
Anmelden zum Freischalten