
Data Lake - Architektura i wprowadzanie danych
Architektura Data Lake, strefy (raw/refined/curated), formaty (Parquet, Avro, JSON), wprowadzanie danych, partycjonowanie
1Czym jest Data Lake?
Czym jest Data Lake?
Odpowiedź
Data Lake to scentralizowany system pamięci masowej zdolny do przechowywania surowych danych w ich natywnym formacie, niezależnie od tego, czy są ustrukturyzowane, częściowo ustrukturyzowane czy nieustrukturyzowane. W przeciwieństwie do Data Warehouse, który wymusza schemat przy zapisie (schema-on-write), Data Lake stosuje schemat przy odczycie (schema-on-read), oferując maksymalną elastyczność w eksploracji i analizie danych.
2Jaka jest główna różnica między schema-on-write a schema-on-read?
Jaka jest główna różnica między schema-on-write a schema-on-read?
Odpowiedź
Schema-on-write wymusza walidację i transformację danych przed zapisem, zapewniając spójną strukturę, ale ograniczając elastyczność. Schema-on-read przechowuje dane w surowym formacie i stosuje schemat tylko podczas odczytu, oferując maksymalną elastyczność wprowadzania danych, ale wymagając przetwarzania przy dostępie do danych.
3Jakie są trzy klasyczne strefy Data Lake?
Jakie są trzy klasyczne strefy Data Lake?
Odpowiedź
Standardowa architektura Data Lake składa się z trzech stref: Raw (Bronze) dla surowych, nieprzetworzonych danych, Refined (Silver) dla oczyszczonych i znormalizowanych danych oraz Curated (Gold) dla zagregowanych danych gotowych do użycia. Ta warstwowa organizacja ułatwia zarządzanie, śledzenie i jakość danych.
Jaka jest rola strefy Raw (Bronze) w Data Lake?
Który format pliku najlepiej nadaje się do przechowywania dużych danych analitycznych w Data Lake?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo