Question 1

Was ist das CAP-Theorem und welche drei Eigenschaften hat es?

Accepted Answer

Das CAP-Theorem besagt, dass ein verteiltes System nur zwei von drei Eigenschaften gleichzeitig garantieren kann: Consistency (alle Knoten sehen dieselben Daten), Availability (das System antwortet immer) und Partition tolerance (das System funktioniert trotz Netzwerkpartitionen weiter). Dieses Theorem ist grundlegend für das Verständnis architektonischer Kompromisse in NoSQL-Datenbanken.

Question 2

Was ist der Hauptunterschied zwischen einer Document-Datenbank (MongoDB) und einer Wide-Column-Datenbank (Cassandra)?

Accepted Answer

Document-Datenbanken wie MongoDB speichern JSON/BSON-Dokumente mit flexiblen Schemas und ermöglichen komplexe Abfragen auf jedem Feld. Wide-Column-Datenbanken wie Cassandra organisieren Daten in Column Families mit Partition Keys, optimiert für massive Schreibvorgänge und schlüsselbasierte Lesevorgänge. MongoDB glänzt bei hierarchischen Daten, Cassandra bei Zeitreihen mit hoher Geschwindigkeit.

Question 3

In welchem Anwendungsfall sollte Neo4j gegenüber MongoDB oder Cassandra bevorzugt werden?

Accepted Answer

Neo4j ist eine Graph-Datenbank, die für komplexe mehrstufige Beziehungen zwischen Entitäten optimiert ist. Sie glänzt bei sozialen Netzwerken, Empfehlungssystemen, Betrugserkennung und Abhängigkeitsanalysen. Die Cypher-Sprache ermöglicht das Durchlaufen von Millionen von Beziehungen in Millisekunden, wo SQL-Joins oder NoSQL-Lookups leistungstechnisch prohibitiv wären.

NoSQL-Datenbanken

Was ist das CAP-Theorem und welche drei Eigenschaften hat es?

Antwort

Was ist der Hauptunterschied zwischen einer Document-Datenbank (MongoDB) und einer Wide-Column-Datenbank (Cassandra)?

Antwort

In welchem Anwendungsfall sollte Neo4j gegenüber MongoDB oder Cassandra bevorzugt werden?

Antwort

Was ist ein Partition Key in Cassandra und warum ist er für die Leistung entscheidend?

Wie lautet die Cypher-Syntax, um alle Freunde von Freunden eines Benutzers in Neo4j zu finden?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview