Question 1

O que é um Data Lake?

Accepted Answer

Um Data Lake é um sistema de armazenamento centralizado capaz de armazenar dados brutos em seu formato nativo, sejam estruturados, semiestruturados ou não estruturados. Diferente do Data Warehouse que impõe um esquema na escrita (schema-on-write), o Data Lake aplica o esquema na leitura (schema-on-read), oferecendo flexibilidade máxima para exploração e análise de dados.

Question 2

Qual é a principal diferença entre schema-on-write e schema-on-read?

Accepted Answer

Schema-on-write impõe a validação e transformação dos dados antes do armazenamento, garantindo estrutura consistente mas limitando a flexibilidade. Schema-on-read armazena os dados em formato bruto e aplica o esquema apenas durante a leitura, oferecendo flexibilidade máxima de ingestão mas exigindo processamento ao acessar os dados.

Question 3

Quais são as três zonas clássicas de um Data Lake?

Accepted Answer

A arquitetura padrão de Data Lake compreende três zonas: Raw (Bronze) para dados brutos não transformados, Refined (Silver) para dados limpos e normalizados, e Curated (Gold) para dados agregados prontos para consumo. Esta organização em camadas facilita governança, rastreabilidade e qualidade dos dados.

Data Lake - Arquitetura e ingestão

O que é um Data Lake?

Resposta

Qual é a principal diferença entre schema-on-write e schema-on-read?

Resposta

Quais são as três zonas clássicas de um Data Lake?

Resposta

Qual é o papel da zona Raw (Bronze) em um Data Lake?

Qual formato de arquivo é mais adequado para armazenar dados analíticos volumosos em um Data Lake?

Outros temas de entrevista Data Engineering

Linux & Shell - Fundamentos

Git & GitHub - Fundamentos

Python avançado para Data Engineering

Docker - Fundamentos

Google Cloud Platform - Fundamentos

CI/CD e qualidade de código

Docker Compose

FastAPI - APIs de dados

SQL avançado para Data Engineering

BigQuery para Data Engineering

PostgreSQL - Administração

Data Modeling para Data Engineering

Fivetran & Airbyte - Ingestão de dados

dbt - Fundamentos

Apache Airflow - Fundamentos

Kubernetes - Fundamentos

dbt - Recursos avançados

Padrões ETL / ELT / ETLT

Apache Airflow - Avançado

Airflow + dbt - Orquestração de pipelines

PySpark - Processamento em grande escala

Google Pub/Sub - Streaming de dados

Apache Beam & Dataflow

Kubernetes - Produção e escalabilidade

Terraform - Infrastructure as Code

Bancos de dados NoSQL

Arquitetura Data moderna

Monitoramento e observabilidade

IAM e segurança de dados

Domine Data Engineering para sua proxima entrevista