
BigQuery für Data Engineering
Serverless-Architektur, Partitionierung, Clustering, Kosten, UDFs, Federated Queries, Scheduled Queries, Materialized Views
1Welche Speicherarchitektur verwendet BigQuery?
Welche Speicherarchitektur verwendet BigQuery?
Antwort
BigQuery verwendet eine Serverless-Architektur mit spaltenbasiertem Speicher namens Capacitor. Diese Architektur trennt Speicher und Compute, was unabhängige Skalierung und separate Abrechnung ermöglicht. Spaltenbasierter Speicher ist für analytische Abfragen optimiert, da nur die benötigten Spalten gelesen werden, was den I/O erheblich reduziert.
2Was ist der Hauptvorteil der Tabellenpartitionierung in BigQuery?
Was ist der Hauptvorteil der Tabellenpartitionierung in BigQuery?
Antwort
Die Partitionierung teilt eine große Tabelle in kleinere Segmente basierend auf einer Spalte (üblicherweise einem Datum). Bei Abfragen kann BigQuery irrelevante Partitionen überspringen (Partition Pruning), was die Menge der gescannten Daten reduziert. Dies verbessert die Leistung und reduziert die Kosten, da BigQuery basierend auf dem verarbeiteten Datenvolumen abrechnet.
3Welche Partitionierungstypen sind in BigQuery verfügbar?
Welche Partitionierungstypen sind in BigQuery verfügbar?
Antwort
BigQuery unterstützt drei Partitionierungstypen: nach DATE- oder TIMESTAMP-Spalte (am häufigsten), nach Ganzzahlbereich (INTEGER RANGE) und nach Ingestionszeit (_PARTITIONTIME). Datumspartitionierung wird für Zeitreihendaten empfohlen, da sie effizientes Partition Pruning bei Datumsfiltern ermöglicht.
Was ist der Unterschied zwischen Partitionierung und Clustering in BigQuery?
Wie können Abfragekosten in BigQuery optimiert werden?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
PySpark - Verarbeitung im großen Maßstab
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten