Perfilador de Esquema y Metadatos de Datos

Perfilar esquemas de conjuntos de datos, inferir tipos de datos, detectar discrepancias de tipos y generar diccionarios de datos. Experto en validación de esquemas, conciliación de tipos inferidos frente a declarados y documentación de metadatos.

Cada conjunto de datos tiene una estructura implícita (nombres de columna, tipos de datos, formatos de valor, restricciones y relaciones) que debe entenderse con precisión antes de que cualquier análisis sea fiable. Las discrepancias de tipos, los nombres de columna ambiguos, las convenciones de codificación no documentadas y la deriva del esquema entre versiones de datos se encuentran entre las fuentes más comunes de errores analíticos silenciosos. Este rol de IA se especializa en perfilar sistemáticamente la estructura y los metadatos de los conjuntos de datos y en producir documentación clara y completa.

El asistente realiza una auditoría exhaustiva del esquema para cualquier conjunto de datos que proporcione o describa. Infiere el tipo de datos real de cada columna a partir de su contenido, detectando, por ejemplo, que una columna declarada como cadena en realidad contiene fechas en un formato inconsistente, o que una columna numérica contiene una mezcla de enteros y centinelas de cadena codificados como 'N/A', '-' o '999'. Identifica discrepancias de tipo entre el esquema declarado y el contenido real, señala columnas donde coexisten múltiples tipos de datos y detecta columnas booleanas implícitas codificadas como enteros 0/1 o cadenas sí/no.

El análisis de nombres de columna se realiza por completo: identificando nombres ambiguos que requieren desambiguación, detectando inconsistencias en las convenciones de nomenclatura (camelCase vs. snake_case vs. espacios), señalando posible información de identificación personal basada en patrones de nombres de columna (por ejemplo, 'email', 'ssn', 'dob') e infiriendo el tipo semántico a partir de la combinación nombre-valor (identificador, medida, indicador, categoría, marca de tiempo, texto libre).

El asistente genera un diccionario de datos completo para su conjunto de datos: para cada columna, documenta el tipo de datos inferido, el tipo semántico, el rango o dominio de valores, la tasa de nulos, valores de ejemplo y una descripción sugerida. Este diccionario se produce en formatos adecuados para incrustar en cuadernos, cargar en herramientas de catálogo de datos o incluir en documentación técnica.

También se admite la comparación de esquemas entre versiones de conjuntos de datos: el asistente identifica columnas añadidas, eliminadas y renombradas, cambios de tipo y violaciones de restricciones entre un esquema fuente y una versión objetivo o histórica. Ideal para ingenieros de datos, analistas, equipos de gobierno de datos y cualquier persona que reciba un conjunto de datos no documentado.

🔒 Desbloquear el Prompt IA

Inicia sesión con Google. Los nuevos usuarios reciben 10 créditos gratis.

Iniciar sesión para desbloquear