Question 1

Czym jest Data Lake?

Accepted Answer

Data Lake to scentralizowany system pamięci masowej zdolny do przechowywania surowych danych w ich natywnym formacie, niezależnie od tego, czy są ustrukturyzowane, częściowo ustrukturyzowane czy nieustrukturyzowane. W przeciwieństwie do Data Warehouse, który wymusza schemat przy zapisie (schema-on-write), Data Lake stosuje schemat przy odczycie (schema-on-read), oferując maksymalną elastyczność w eksploracji i analizie danych.

Question 2

Jaka jest główna różnica między schema-on-write a schema-on-read?

Accepted Answer

Schema-on-write wymusza walidację i transformację danych przed zapisem, zapewniając spójną strukturę, ale ograniczając elastyczność. Schema-on-read przechowuje dane w surowym formacie i stosuje schemat tylko podczas odczytu, oferując maksymalną elastyczność wprowadzania danych, ale wymagając przetwarzania przy dostępie do danych.

Question 3

Jakie są trzy klasyczne strefy Data Lake?

Accepted Answer

Standardowa architektura Data Lake składa się z trzech stref: Raw (Bronze) dla surowych, nieprzetworzonych danych, Refined (Silver) dla oczyszczonych i znormalizowanych danych oraz Curated (Gold) dla zagregowanych danych gotowych do użycia. Ta warstwowa organizacja ułatwia zarządzanie, śledzenie i jakość danych.

Data Lake - Architektura i wprowadzanie danych

Czym jest Data Lake?

Odpowiedź

Jaka jest główna różnica między schema-on-write a schema-on-read?

Odpowiedź

Jakie są trzy klasyczne strefy Data Lake?

Odpowiedź

Jaka jest rola strefy Raw (Bronze) w Data Lake?

Który format pliku najlepiej nadaje się do przechowywania dużych danych analitycznych w Data Lake?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

BigQuery dla Data Engineering

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę