Question 1

Welke opslagarchitectuur gebruikt BigQuery?

Accepted Answer

BigQuery gebruikt een serverless architectuur met kolomgebaseerde opslag genaamd Capacitor. Deze architectuur scheidt opslag en compute, waardoor onafhankelijke schaling en aparte facturering mogelijk zijn. Kolomopslag is geoptimaliseerd voor analytische queries omdat alleen de benodigde kolommen worden gelezen, wat de I/O aanzienlijk vermindert.

Question 2

Wat is het belangrijkste voordeel van tabel-partitioning in BigQuery?

Accepted Answer

Partitioning verdeelt een grote tabel in kleinere segmenten op basis van een kolom (meestal een datum). Tijdens queries kan BigQuery irrelevante partities overslaan (partition pruning), waardoor de hoeveelheid gescande data wordt verminderd. Dit verbetert de prestaties en verlaagt de kosten omdat BigQuery in rekening brengt op basis van het verwerkte datavolume.

Question 3

Welke partitioneringstypes zijn beschikbaar in BigQuery?

Accepted Answer

BigQuery ondersteunt drie partitioneringstypes: op DATE- of TIMESTAMP-kolom (meest voorkomend), op integer-bereik (INTEGER RANGE) en op ingestiemoment (_PARTITIONTIME). Datum-partitionering wordt aanbevolen voor tijdreeksgegevens omdat het efficiënte partition pruning op datumfilters mogelijk maakt.

BigQuery voor Data Engineering

Welke opslagarchitectuur gebruikt BigQuery?

Antwoord

Wat is het belangrijkste voordeel van tabel-partitioning in BigQuery?

Antwoord

Welke partitioneringstypes zijn beschikbaar in BigQuery?

Antwoord

Wat is het verschil tussen partitioning en clustering in BigQuery?

Hoe kunnen querykosten in BigQuery worden geoptimaliseerd?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Geavanceerde SQL voor Data Engineering

Data Lake - Architectuur en ingestie

PostgreSQL - Administratie

Data Modeling voor Data Engineering

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

ETL- / ELT- / ETLT-patronen

Apache Airflow - Gevorderd

Airflow + dbt - Pipeline-orkestratie

PySpark - Grootschalige verwerking

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

NoSQL-databases

Moderne Data Architecture

Monitoring en observability

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek