Buckets
Origem dos Arquivos
Os clientes fornecem arquivos para um bucket no Google Cloud Storage (GCS). Atualmente, os formatos mais comuns suportados são Excel e CSV. Esses arquivos podem ser enviados manualmente ou através de sistemas automatizados.
Características e Padronização
Para eficiência no processamento, é crucial manter uma padronização dos arquivos. Contudo, os clientes frequentemente alteram o schema dos arquivos, introduzindo desafios como:
Mudanças de formato
Adição ou remoção de colunas
Por isso, é fundamental estabelecer acordos claros sobre a padronização, como:
Nomenclatura: Os nomes dos arquivos devem seguir uma estrutura padrão, por exemplo,
base_dados_{mes}.csv.Consistência nas colunas: A ordem, quantidade e nome das colunas devem permanecer constantes.
Formatação: É importante definir detalhes como encoding e o separador usado em arquivos CSV.
Embora a implementação de conectores para arquivos seja mais rápida do que para APIs, mudanças frequentes nos arquivos podem levar a necessidades adicionais de manutenção.
Tratamentos dos Dados
Os arquivos podem exigir tratamentos variados, que serão determinados pela natureza dos dados e pelo método de coleta. Por exemplo:
Arquivos que consolidam dados de várias fontes podem apresentar inconsistências, como colunas com tipos misturados ou falta de padronização em campos de string.
Por outro lado, sistemas automatizados que geram e enviam arquivos tendem a minimizar erros humanos, resultando em menos necessidade de tratamentos.
Além disso, arquivos volumosos podem alimentar diversas tabelas no BigQuery, de modo que um único arquivo possa ser transformado em várias tabelas distintas.
Periodicidade de Atualização
Estratégias de Sincronização de Dados
Assim como bancos de dados e APIs, os arquivos de bucket podem ser carregados no Looqlake de diferentes maneiras:
É fundamental entender as particularidades do processamento de arquivos de bucket para garantir uma integração eficiente e confiável no BigQuery.
Last updated
Was this helpful?