
BigQuery voor Data Engineering
Serverless architectuur, partitioning, clustering, kosten, UDFs, federated queries, scheduled queries, materialized views
1Welke opslagarchitectuur gebruikt BigQuery?
Welke opslagarchitectuur gebruikt BigQuery?
Antwoord
BigQuery gebruikt een serverless architectuur met kolomgebaseerde opslag genaamd Capacitor. Deze architectuur scheidt opslag en compute, waardoor onafhankelijke schaling en aparte facturering mogelijk zijn. Kolomopslag is geoptimaliseerd voor analytische queries omdat alleen de benodigde kolommen worden gelezen, wat de I/O aanzienlijk vermindert.
2Wat is het belangrijkste voordeel van tabel-partitioning in BigQuery?
Wat is het belangrijkste voordeel van tabel-partitioning in BigQuery?
Antwoord
Partitioning verdeelt een grote tabel in kleinere segmenten op basis van een kolom (meestal een datum). Tijdens queries kan BigQuery irrelevante partities overslaan (partition pruning), waardoor de hoeveelheid gescande data wordt verminderd. Dit verbetert de prestaties en verlaagt de kosten omdat BigQuery in rekening brengt op basis van het verwerkte datavolume.
3Welke partitioneringstypes zijn beschikbaar in BigQuery?
Welke partitioneringstypes zijn beschikbaar in BigQuery?
Antwoord
BigQuery ondersteunt drie partitioneringstypes: op DATE- of TIMESTAMP-kolom (meest voorkomend), op integer-bereik (INTEGER RANGE) en op ingestiemoment (_PARTITIONTIME). Datum-partitionering wordt aanbevolen voor tijdreeksgegevens omdat het efficiënte partition pruning op datumfilters mogelijk maakt.
Wat is het verschil tussen partitioning en clustering in BigQuery?
Hoe kunnen querykosten in BigQuery worden geoptimaliseerd?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
PySpark - Grootschalige verwerking
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis