Question 1

Wat is het CAP-theorema en wat zijn de drie eigenschappen?

Accepted Answer

Het CAP-theorema stelt dat een gedistribueerd systeem slechts twee van de drie eigenschappen tegelijk kan garanderen: Consistency (alle nodes zien dezelfde data), Availability (het systeem reageert altijd) en Partition tolerance (het systeem blijft werken ondanks netwerkpartities). Dit theorema is fundamenteel om de architecturale afwegingen in NoSQL-databases te begrijpen.

Question 2

Wat is het belangrijkste verschil tussen een Document-database (MongoDB) en een Wide Column-database (Cassandra)?

Accepted Answer

Document-databases zoals MongoDB slaan JSON/BSON-documenten op met flexibele schema's en staan complexe queries op elk veld toe. Wide Column-databases zoals Cassandra organiseren data in column families met partition keys, geoptimaliseerd voor massale writes en key-gebaseerde reads. MongoDB blinkt uit voor hiërarchische data, Cassandra voor time series met hoge snelheid.

Question 3

In welk gebruiksgeval moet Neo4j worden verkozen boven MongoDB of Cassandra?

Accepted Answer

Neo4j is een graph database die is geoptimaliseerd voor complexe multi-level relaties tussen entiteiten. Het blinkt uit voor sociale netwerken, aanbevelingssystemen, fraudedetectie en afhankelijkheidsanalyse. De Cypher-taal maakt het mogelijk om miljoenen relaties in milliseconden te doorlopen, waar SQL-joins of NoSQL-lookups qua prestaties prohibitief zouden zijn.

NoSQL-databases

Wat is het CAP-theorema en wat zijn de drie eigenschappen?

Antwoord

Wat is het belangrijkste verschil tussen een Document-database (MongoDB) en een Wide Column-database (Cassandra)?

Antwoord

In welk gebruiksgeval moet Neo4j worden verkozen boven MongoDB of Cassandra?

Antwoord

Wat is een partition key in Cassandra en waarom is deze cruciaal voor de prestaties?

Wat is de Cypher-syntaxis om alle vrienden van vrienden van een gebruiker in Neo4j te vinden?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Geavanceerde SQL voor Data Engineering

Data Lake - Architectuur en ingestie

BigQuery voor Data Engineering

PostgreSQL - Administratie

Data Modeling voor Data Engineering

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

ETL- / ELT- / ETLT-patronen

Apache Airflow - Gevorderd

Airflow + dbt - Pipeline-orkestratie

PySpark - Grootschalige verwerking

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

Moderne Data Architecture

Monitoring en observability

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek