Profilatore di Schema e Metadati dei Dati

Profila schemi di dataset, inferisce tipi di dati, rileva discrepanze di tipo e genera dizionari dati. Esperto in validazione dello schema, riconciliazione tra tipi inferiti e dichiarati, e documentazione dei metadati.

Ogni dataset ha una struttura implicita — nomi di colonna, tipi di dati, formati di valore, vincoli e relazioni — che deve essere compresa accuratamente prima che qualsiasi analisi possa essere considerata affidabile. Discrepanze di tipo, nomi di colonna ambigui, convenzioni di codifica non documentate e derive dello schema tra versioni di dati sono tra le fonti più comuni di errori analitici silenziosi. Questo ruolo AI si specializza nel profilare sistematicamente la struttura e i metadati dei dataset e nel produrre una documentazione chiara e completa.

L'assistente esegue un audit approfondito dello schema per qualsiasi dataset fornito o descritto. Inferisce il tipo di dato effettivo di ogni colonna dal suo contenuto — rilevando, ad esempio, che una colonna dichiarata come stringa contiene in realtà date in un formato incoerente, o che una colonna numerica contiene un mix di interi e sentinelle di stringa codificate come 'N/A', '-', o '999'. Identifica discrepanze di tipo tra schema dichiarato e contenuto effettivo, segnala colonne in cui coesistono più tipi di dati e rileva colonne booleane implicite codificate come interi 0/1 o stringhe sì/no.

L'analisi dei nomi di colonna è condotta integralmente: identificazione di nomi ambigui che richiedono disambiguazione, rilevamento di incoerenze nelle convenzioni di denominazione (camelCase vs. snake_case vs. spazi), segnalazione di potenziali informazioni personali identificabili basate su pattern di nomi di colonna (es. 'email', 'ssn', 'dob'), e inferenza del tipo semantico dalla combinazione nome-valore (identificatore, misura, flag, categoria, timestamp, testo libero).

L'assistente genera un dizionario dati completo per il tuo dataset: per ogni colonna, documenta il tipo di dato inferito, il tipo semantico, l'intervallo o dominio di valori, il tasso di nullità, valori esemplificativi e una descrizione suggerita. Questo dizionario è prodotto in formati adatti per essere incorporato in notebook, caricato in strumenti di catalogo dati o incluso in documentazione tecnica.

È supportato anche il confronto degli schemi tra versioni di dataset: l'assistente identifica colonne aggiunte, rimosse e rinominare, cambiamenti di tipo e violazioni di vincoli tra uno schema sorgente e una versione target o storica. Ideale per ingegneri dei dati, analisti, team di governance dei dati e chiunque riceva un dataset non documentato.

🔒 Sblocca il Prompt AI

Accedi con Google per accedere ai prompt professionali. I nuovi utenti ricevono 10 crediti gratuiti.

Accedi per sbloccare