
BigQuery dla Data Engineering
Architektura serverless, partycjonowanie, clustering, koszty, UDF, federated queries, scheduled queries, materialized views
1Jakiej architektury przechowywania używa BigQuery?
Jakiej architektury przechowywania używa BigQuery?
Odpowiedź
BigQuery wykorzystuje architekturę serverless z kolumnowym magazynem danych zwanym Capacitor. Architektura ta oddziela storage i compute, umożliwiając niezależne skalowanie i osobne rozliczanie. Magazyn kolumnowy jest zoptymalizowany pod kątem zapytań analitycznych, ponieważ pozwala czytać tylko potrzebne kolumny, znacznie redukując I/O.
2Jaka jest główna zaleta partycjonowania tabel w BigQuery?
Jaka jest główna zaleta partycjonowania tabel w BigQuery?
Odpowiedź
Partycjonowanie dzieli dużą tabelę na mniejsze segmenty na podstawie kolumny (zwykle daty). Podczas zapytań BigQuery może pomijać nieistotne partycje (partition pruning), zmniejszając ilość skanowanych danych. Poprawia to wydajność i zmniejsza koszty, ponieważ BigQuery rozlicza się według ilości przetworzonych danych.
3Jakie typy partycjonowania są dostępne w BigQuery?
Jakie typy partycjonowania są dostępne w BigQuery?
Odpowiedź
BigQuery obsługuje trzy typy partycjonowania: według kolumny DATE lub TIMESTAMP (najczęściej), według zakresu liczb całkowitych (INTEGER RANGE) i według czasu pobierania (_PARTITIONTIME). Partycjonowanie według daty jest zalecane dla danych szeregów czasowych, ponieważ umożliwia wydajne partition pruning na filtrach daty.
Jaka jest różnica między partycjonowaniem a clusteringiem w BigQuery?
Jak zoptymalizować koszty zapytań w BigQuery?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo