Question 1

Welche Speicherarchitektur verwendet BigQuery?

Accepted Answer

BigQuery verwendet eine Serverless-Architektur mit spaltenbasiertem Speicher namens Capacitor. Diese Architektur trennt Speicher und Compute, was unabhängige Skalierung und separate Abrechnung ermöglicht. Spaltenbasierter Speicher ist für analytische Abfragen optimiert, da nur die benötigten Spalten gelesen werden, was den I/O erheblich reduziert.

Question 2

Was ist der Hauptvorteil der Tabellenpartitionierung in BigQuery?

Accepted Answer

Die Partitionierung teilt eine große Tabelle in kleinere Segmente basierend auf einer Spalte (üblicherweise einem Datum). Bei Abfragen kann BigQuery irrelevante Partitionen überspringen (Partition Pruning), was die Menge der gescannten Daten reduziert. Dies verbessert die Leistung und reduziert die Kosten, da BigQuery basierend auf dem verarbeiteten Datenvolumen abrechnet.

Question 3

Welche Partitionierungstypen sind in BigQuery verfügbar?

Accepted Answer

BigQuery unterstützt drei Partitionierungstypen: nach DATE- oder TIMESTAMP-Spalte (am häufigsten), nach Ganzzahlbereich (INTEGER RANGE) und nach Ingestionszeit (_PARTITIONTIME). Datumspartitionierung wird für Zeitreihendaten empfohlen, da sie effizientes Partition Pruning bei Datumsfiltern ermöglicht.

BigQuery für Data Engineering

Welche Speicherarchitektur verwendet BigQuery?

Antwort

Was ist der Hauptvorteil der Tabellenpartitionierung in BigQuery?

Antwort

Welche Partitionierungstypen sind in BigQuery verfügbar?

Antwort

Was ist der Unterschied zwischen Partitionierung und Clustering in BigQuery?

Wie können Abfragekosten in BigQuery optimiert werden?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

PySpark - Verarbeitung im großen Maßstab

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview