
Data Lake - Arquitetura e ingestão
Arquitetura Data Lake, zonas (raw/refined/curated), formatos (Parquet, Avro, JSON), ingestão, particionamento
1O que é um Data Lake?
O que é um Data Lake?
Resposta
Um Data Lake é um sistema de armazenamento centralizado capaz de armazenar dados brutos em seu formato nativo, sejam estruturados, semiestruturados ou não estruturados. Diferente do Data Warehouse que impõe um esquema na escrita (schema-on-write), o Data Lake aplica o esquema na leitura (schema-on-read), oferecendo flexibilidade máxima para exploração e análise de dados.
2Qual é a principal diferença entre schema-on-write e schema-on-read?
Qual é a principal diferença entre schema-on-write e schema-on-read?
Resposta
Schema-on-write impõe a validação e transformação dos dados antes do armazenamento, garantindo estrutura consistente mas limitando a flexibilidade. Schema-on-read armazena os dados em formato bruto e aplica o esquema apenas durante a leitura, oferecendo flexibilidade máxima de ingestão mas exigindo processamento ao acessar os dados.
3Quais são as três zonas clássicas de um Data Lake?
Quais são as três zonas clássicas de um Data Lake?
Resposta
A arquitetura padrão de Data Lake compreende três zonas: Raw (Bronze) para dados brutos não transformados, Refined (Silver) para dados limpos e normalizados, e Curated (Gold) para dados agregados prontos para consumo. Esta organização em camadas facilita governança, rastreabilidade e qualidade dos dados.
Qual é o papel da zona Raw (Bronze) em um Data Lake?
Qual formato de arquivo é mais adequado para armazenar dados analíticos volumosos em um Data Lake?
+17 perguntas de entrevista
Outros temas de entrevista Data Engineering
Linux & Shell - Fundamentos
Git & GitHub - Fundamentos
Python avançado para Data Engineering
Docker - Fundamentos
Google Cloud Platform - Fundamentos
CI/CD e qualidade de código
Docker Compose
FastAPI - APIs de dados
SQL avançado para Data Engineering
BigQuery para Data Engineering
PostgreSQL - Administração
Data Modeling para Data Engineering
Fivetran & Airbyte - Ingestão de dados
dbt - Fundamentos
Apache Airflow - Fundamentos
Kubernetes - Fundamentos
dbt - Recursos avançados
Padrões ETL / ELT / ETLT
Apache Airflow - Avançado
Airflow + dbt - Orquestração de pipelines
PySpark - Processamento em grande escala
Google Pub/Sub - Streaming de dados
Apache Beam & Dataflow
Kubernetes - Produção e escalabilidade
Terraform - Infrastructure as Code
Bancos de dados NoSQL
Arquitetura Data moderna
Monitoramento e observabilidade
IAM e segurança de dados
Domine Data Engineering para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis