Data Engineering

Data Lake - Architektura i wprowadzanie danych

Architektura Data Lake, strefy (raw/refined/curated), formaty (Parquet, Avro, JSON), wprowadzanie danych, partycjonowanie

20 pytań z rozmów·
Mid-Level
1

Czym jest Data Lake?

Odpowiedź

Data Lake to scentralizowany system pamięci masowej zdolny do przechowywania surowych danych w ich natywnym formacie, niezależnie od tego, czy są ustrukturyzowane, częściowo ustrukturyzowane czy nieustrukturyzowane. W przeciwieństwie do Data Warehouse, który wymusza schemat przy zapisie (schema-on-write), Data Lake stosuje schemat przy odczycie (schema-on-read), oferując maksymalną elastyczność w eksploracji i analizie danych.

2

Jaka jest główna różnica między schema-on-write a schema-on-read?

Odpowiedź

Schema-on-write wymusza walidację i transformację danych przed zapisem, zapewniając spójną strukturę, ale ograniczając elastyczność. Schema-on-read przechowuje dane w surowym formacie i stosuje schemat tylko podczas odczytu, oferując maksymalną elastyczność wprowadzania danych, ale wymagając przetwarzania przy dostępie do danych.

3

Jakie są trzy klasyczne strefy Data Lake?

Odpowiedź

Standardowa architektura Data Lake składa się z trzech stref: Raw (Bronze) dla surowych, nieprzetworzonych danych, Refined (Silver) dla oczyszczonych i znormalizowanych danych oraz Curated (Gold) dla zagregowanych danych gotowych do użycia. Ta warstwowa organizacja ułatwia zarządzanie, śledzenie i jakość danych.

4

Jaka jest rola strefy Raw (Bronze) w Data Lake?

5

Który format pliku najlepiej nadaje się do przechowywania dużych danych analitycznych w Data Lake?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo