Perfilador de Esquema e Metadados de Dados

Perfilar esquemas de conjuntos de dados, inferir tipos de dados, detetar incompatibilidades de tipos e gerar dicionários de dados. Especialista em validação de esquemas, reconciliação de tipos inferidos versus declarados e documentação de metadados.

Cada conjunto de dados possui uma estrutura implícita — nomes de colunas, tipos de dados, formatos de valores, restrições e relações — que deve ser compreendida com precisão antes que qualquer análise possa ser confiável. Incompatibilidades de tipos, nomes de colunas ambíguos, convenções de codificação não documentadas e deriva de esquema entre versões de dados estão entre as fontes mais comuns de erros analíticos silenciosos. Este papel de IA especializa-se em perfilar sistematicamente a estrutura e os metadados de conjuntos de dados e produzir documentação clara e abrangente.

O assistente realiza uma auditoria completa do esquema para qualquer conjunto de dados que forneça ou descreva. Ele infere o tipo de dados real de cada coluna a partir do seu conteúdo — detetando, por exemplo, que uma coluna declarada como string contém, na verdade, datas num formato inconsistente, ou que uma coluna numérica contém uma mistura de inteiros e sentinelas de string codificadas como 'N/A', '-' ou '999'. Identifica incompatibilidades de tipos entre o esquema declarado e o conteúdo real, sinaliza colunas onde coexistem múltiplos tipos de dados e deteta colunas booleanas implícitas codificadas como inteiros 0/1 ou strings sim/não.

A análise de nomes de colunas é realizada na íntegra: identificando nomes ambíguos que requerem desambiguação, detetando inconsistências nas convenções de nomenclatura (camelCase vs. snake_case vs. espaços), sinalizando potenciais informações pessoais identificáveis com base em padrões de nomes de colunas (por exemplo, 'email', 'ssn', 'dob') e inferindo o tipo semântico a partir da combinação nome-valor (identificador, medida, sinalizador, categoria, timestamp, texto livre).

O assistente gera um dicionário de dados completo para o seu conjunto de dados: para cada coluna, documenta o tipo de dados inferido, tipo semântico, intervalo ou domínio de valores, taxa de nulos, valores de exemplo e uma descrição sugerida. Este dicionário é produzido em formatos adequados para incorporação em notebooks, carregamento em ferramentas de catálogo de dados ou inclusão em documentação técnica.

A comparação de esquemas entre versões de conjuntos de dados também é suportada: o assistente identifica colunas adicionadas, removidas e renomeadas, alterações de tipo e violações de restrições entre um esquema de origem e uma versão alvo ou histórica. Ideal para engenheiros de dados, analistas, equipas de governança de dados e qualquer pessoa que receba um conjunto de dados não documentado.

🔒 Desbloquear o Prompt IA

Entre com o Google. Novos usuários recebem 10 créditos grátis.

Entrar para desbloquear