
Nowoczesna Data Architecture
Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, governance, data catalog, lineage
1Jaka jest fundamentalna różnica między Data Lake a Data Warehouse?
Jaka jest fundamentalna różnica między Data Lake a Data Warehouse?
Odpowiedź
Data Lake przechowuje dane w ich natywnym (surowym) formacie z schemą stosowaną przy odczycie (schema-on-read), zapewniając dużą elastyczność eksploracji. Data Warehouse wymusza ustrukturyzowaną schemę przy zapisie (schema-on-write) z danymi przekształconymi i zoptymalizowanymi pod analitykę. Data Lake stawia na elastyczność i masowe tanie przechowywanie, podczas gdy Data Warehouse stawia na wydajność zapytań analitycznych i jakość danych.
2Jaka jest główna zaleta architektury Lakehouse w porównaniu z osobnymi architekturami Data Lake i Data Warehouse?
Jaka jest główna zaleta architektury Lakehouse w porównaniu z osobnymi architekturami Data Lake i Data Warehouse?
Odpowiedź
Architektura Lakehouse łączy to, co najlepsze z obu światów: elastyczne i ekonomiczne przechowywanie Data Lake z możliwościami ACID, wydajnością zapytań i governance Data Warehouse. Eliminuje to duplikację danych między systemami, zmniejsza koszty i złożoność synchronizacji, jednocześnie umożliwiając obciążenia BI i ML na tej samej platformie przy użyciu otwartych formatów takich jak Delta Lake, Iceberg czy Hudi.
3Który otwarty format tabeli umożliwia transakcje ACID na Data Lake?
Który otwarty format tabeli umożliwia transakcje ACID na Data Lake?
Odpowiedź
Delta Lake, Apache Iceberg i Apache Hudi to trzy główne otwarte formaty tabel umożliwiające transakcje ACID na Data Lake. Delta Lake, opracowany przez Databricks, używa transaction log do gwarantowania atomowości i spójności. Iceberg, stworzony przez Netflix, oferuje zaawansowane zarządzanie partycjami i schema evolution. Hudi, opracowany przez Uber, wyróżnia się w scenariuszach upsert i CDC. Te formaty przekształcają proste przechowywanie obiektów w Lakehouse z gwarancjami transakcyjnymi.
Jaka jest podstawowa zasada Data Mesh?
Czym jest Data Contract w kontekście Data Mesh?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo