Data Engineering

Data Lake - Arquitetura e ingestão

Arquitetura Data Lake, zonas (raw/refined/curated), formatos (Parquet, Avro, JSON), ingestão, particionamento

20 perguntas de entrevista·
Mid-Level
1

O que é um Data Lake?

Resposta

Um Data Lake é um sistema de armazenamento centralizado capaz de armazenar dados brutos em seu formato nativo, sejam estruturados, semiestruturados ou não estruturados. Diferente do Data Warehouse que impõe um esquema na escrita (schema-on-write), o Data Lake aplica o esquema na leitura (schema-on-read), oferecendo flexibilidade máxima para exploração e análise de dados.

2

Qual é a principal diferença entre schema-on-write e schema-on-read?

Resposta

Schema-on-write impõe a validação e transformação dos dados antes do armazenamento, garantindo estrutura consistente mas limitando a flexibilidade. Schema-on-read armazena os dados em formato bruto e aplica o esquema apenas durante a leitura, oferecendo flexibilidade máxima de ingestão mas exigindo processamento ao acessar os dados.

3

Quais são as três zonas clássicas de um Data Lake?

Resposta

A arquitetura padrão de Data Lake compreende três zonas: Raw (Bronze) para dados brutos não transformados, Refined (Silver) para dados limpos e normalizados, e Curated (Gold) para dados agregados prontos para consumo. Esta organização em camadas facilita governança, rastreabilidade e qualidade dos dados.

4

Qual é o papel da zona Raw (Bronze) em um Data Lake?

5

Qual formato de arquivo é mais adequado para armazenar dados analíticos volumosos em um Data Lake?

+17 perguntas de entrevista

Domine Data Engineering para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis