Data Engineering

Nowoczesna Data Architecture

Data Lake vs Data Warehouse vs Lakehouse, Data Mesh, Data Contracts, schema registry, ADR, governance, data catalog, lineage

20 pytań z rozmów·
Senior
1

Jaka jest fundamentalna różnica między Data Lake a Data Warehouse?

Odpowiedź

Data Lake przechowuje dane w ich natywnym (surowym) formacie z schemą stosowaną przy odczycie (schema-on-read), zapewniając dużą elastyczność eksploracji. Data Warehouse wymusza ustrukturyzowaną schemę przy zapisie (schema-on-write) z danymi przekształconymi i zoptymalizowanymi pod analitykę. Data Lake stawia na elastyczność i masowe tanie przechowywanie, podczas gdy Data Warehouse stawia na wydajność zapytań analitycznych i jakość danych.

2

Jaka jest główna zaleta architektury Lakehouse w porównaniu z osobnymi architekturami Data Lake i Data Warehouse?

Odpowiedź

Architektura Lakehouse łączy to, co najlepsze z obu światów: elastyczne i ekonomiczne przechowywanie Data Lake z możliwościami ACID, wydajnością zapytań i governance Data Warehouse. Eliminuje to duplikację danych między systemami, zmniejsza koszty i złożoność synchronizacji, jednocześnie umożliwiając obciążenia BI i ML na tej samej platformie przy użyciu otwartych formatów takich jak Delta Lake, Iceberg czy Hudi.

3

Który otwarty format tabeli umożliwia transakcje ACID na Data Lake?

Odpowiedź

Delta Lake, Apache Iceberg i Apache Hudi to trzy główne otwarte formaty tabel umożliwiające transakcje ACID na Data Lake. Delta Lake, opracowany przez Databricks, używa transaction log do gwarantowania atomowości i spójności. Iceberg, stworzony przez Netflix, oferuje zaawansowane zarządzanie partycjami i schema evolution. Hudi, opracowany przez Uber, wyróżnia się w scenariuszach upsert i CDC. Te formaty przekształcają proste przechowywanie obiektów w Lakehouse z gwarancjami transakcyjnymi.

4

Jaka jest podstawowa zasada Data Mesh?

5

Czym jest Data Contract w kontekście Data Mesh?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo