Question 1

Jakiej architektury przechowywania używa BigQuery?

Accepted Answer

BigQuery wykorzystuje architekturę serverless z kolumnowym magazynem danych zwanym Capacitor. Architektura ta oddziela storage i compute, umożliwiając niezależne skalowanie i osobne rozliczanie. Magazyn kolumnowy jest zoptymalizowany pod kątem zapytań analitycznych, ponieważ pozwala czytać tylko potrzebne kolumny, znacznie redukując I/O.

Question 2

Jaka jest główna zaleta partycjonowania tabel w BigQuery?

Accepted Answer

Partycjonowanie dzieli dużą tabelę na mniejsze segmenty na podstawie kolumny (zwykle daty). Podczas zapytań BigQuery może pomijać nieistotne partycje (partition pruning), zmniejszając ilość skanowanych danych. Poprawia to wydajność i zmniejsza koszty, ponieważ BigQuery rozlicza się według ilości przetworzonych danych.

Question 3

Jakie typy partycjonowania są dostępne w BigQuery?

Accepted Answer

BigQuery obsługuje trzy typy partycjonowania: według kolumny DATE lub TIMESTAMP (najczęściej), według zakresu liczb całkowitych (INTEGER RANGE) i według czasu pobierania (_PARTITIONTIME). Partycjonowanie według daty jest zalecane dla danych szeregów czasowych, ponieważ umożliwia wydajne partition pruning na filtrach daty.

BigQuery dla Data Engineering

Jakiej architektury przechowywania używa BigQuery?

Odpowiedź

Jaka jest główna zaleta partycjonowania tabel w BigQuery?

Odpowiedź

Jakie typy partycjonowania są dostępne w BigQuery?

Odpowiedź

Jaka jest różnica między partycjonowaniem a clusteringiem w BigQuery?

Jak zoptymalizować koszty zapytań w BigQuery?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę