Question 1

Czym jest twierdzenie CAP i jakie są jego trzy właściwości?

Accepted Answer

Twierdzenie CAP stwierdza, że system rozproszony może jednocześnie gwarantować tylko dwie z trzech właściwości: Consistency (wszystkie węzły widzą te same dane), Availability (system zawsze odpowiada) i Partition tolerance (system działa pomimo partycji sieciowych). To twierdzenie jest fundamentalne dla zrozumienia kompromisów architektonicznych w bazach NoSQL.

Question 2

Jaka jest główna różnica między bazą Document (MongoDB) a bazą Wide Column (Cassandra)?

Accepted Answer

Bazy Document jak MongoDB przechowują dokumenty JSON/BSON z elastycznymi schematami i pozwalają na złożone zapytania na dowolnym polu. Bazy Wide Column jak Cassandra organizują dane w column family z partition key, zoptymalizowane dla masowych zapisów i odczytów po kluczu. MongoDB doskonale radzi sobie z danymi hierarchicznymi, Cassandra z szybkimi seriami czasowymi.

Question 3

W jakim przypadku użycia należy preferować Neo4j zamiast MongoDB lub Cassandra?

Accepted Answer

Neo4j to baza danych grafowa zoptymalizowana pod kątem złożonych wielopoziomowych relacji między encjami. Doskonale sprawdza się w sieciach społecznościowych, systemach rekomendacji, wykrywaniu oszustw i analizie zależności. Język Cypher umożliwia przemierzanie milionów relacji w milisekundach, podczas gdy złączenia SQL lub lookupy NoSQL byłyby zbyt wolne pod względem wydajności.

Bazy danych NoSQL

Czym jest twierdzenie CAP i jakie są jego trzy właściwości?

Odpowiedź

Jaka jest główna różnica między bazą Document (MongoDB) a bazą Wide Column (Cassandra)?

Odpowiedź

W jakim przypadku użycia należy preferować Neo4j zamiast MongoDB lub Cassandra?

Odpowiedź

Czym jest partition key w Cassandra i dlaczego jest krytyczny dla wydajności?

Jaka jest składnia Cypher do znalezienia wszystkich znajomych znajomych użytkownika w Neo4j?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

BigQuery dla Data Engineering

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę