Buckets

Origem dos Arquivos

Os clientes fornecem arquivos para um bucket no Google Cloud Storage (GCS). Atualmente, os formatos mais comuns suportados são Excel e CSV. Esses arquivos podem ser enviados manualmente ou através de sistemas automatizados.

Características e Padronização

Para eficiência no processamento, é crucial manter uma padronização dos arquivos. Contudo, os clientes frequentemente alteram o schema dos arquivos, introduzindo desafios como:

  • Mudanças de formato

  • Adição ou remoção de colunas

Por isso, é fundamental estabelecer acordos claros sobre a padronização, como:

  • Nomenclatura: Os nomes dos arquivos devem seguir uma estrutura padrão, por exemplo, base_dados_{mes}.csv.

  • Consistência nas colunas: A ordem, quantidade e nome das colunas devem permanecer constantes.

  • Formatação: É importante definir detalhes como encoding e o separador usado em arquivos CSV.

Embora a implementação de conectores para arquivos seja mais rápida do que para APIs, mudanças frequentes nos arquivos podem levar a necessidades adicionais de manutenção.

Tratamentos dos Dados

Os arquivos podem exigir tratamentos variados, que serão determinados pela natureza dos dados e pelo método de coleta. Por exemplo:

  • Arquivos que consolidam dados de várias fontes podem apresentar inconsistências, como colunas com tipos misturados ou falta de padronização em campos de string.

  • Por outro lado, sistemas automatizados que geram e enviam arquivos tendem a minimizar erros humanos, resultando em menos necessidade de tratamentos.

Além disso, arquivos volumosos podem alimentar diversas tabelas no BigQuery, de modo que um único arquivo possa ser transformado em várias tabelas distintas.

Periodicidade de Atualização

Estratégias de Sincronização de Dados

Assim como bancos de dados e APIs, os arquivos de bucket podem ser carregados no Looqlake de diferentes maneiras:


É fundamental entender as particularidades do processamento de arquivos de bucket para garantir uma integração eficiente e confiável no BigQuery.

Last updated

Was this helpful?