Data Engineering

BigQuery für Data Engineering

Serverless-Architektur, Partitionierung, Clustering, Kosten, UDFs, Federated Queries, Scheduled Queries, Materialized Views

20 Interview-Fragen·
Mid-Level
1

Welche Speicherarchitektur verwendet BigQuery?

Antwort

BigQuery verwendet eine Serverless-Architektur mit spaltenbasiertem Speicher namens Capacitor. Diese Architektur trennt Speicher und Compute, was unabhängige Skalierung und separate Abrechnung ermöglicht. Spaltenbasierter Speicher ist für analytische Abfragen optimiert, da nur die benötigten Spalten gelesen werden, was den I/O erheblich reduziert.

2

Was ist der Hauptvorteil der Tabellenpartitionierung in BigQuery?

Antwort

Die Partitionierung teilt eine große Tabelle in kleinere Segmente basierend auf einer Spalte (üblicherweise einem Datum). Bei Abfragen kann BigQuery irrelevante Partitionen überspringen (Partition Pruning), was die Menge der gescannten Daten reduziert. Dies verbessert die Leistung und reduziert die Kosten, da BigQuery basierend auf dem verarbeiteten Datenvolumen abrechnet.

3

Welche Partitionierungstypen sind in BigQuery verfügbar?

Antwort

BigQuery unterstützt drei Partitionierungstypen: nach DATE- oder TIMESTAMP-Spalte (am häufigsten), nach Ganzzahlbereich (INTEGER RANGE) und nach Ingestionszeit (_PARTITIONTIME). Datumspartitionierung wird für Zeitreihendaten empfohlen, da sie effizientes Partition Pruning bei Datumsfiltern ermöglicht.

4

Was ist der Unterschied zwischen Partitionierung und Clustering in BigQuery?

5

Wie können Abfragekosten in BigQuery optimiert werden?

+17 Interview-Fragen

Meistere Data Engineering für dein nächstes Interview

Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.

Kostenlos starten