Data Engineering

BigQuery dla Data Engineering

Architektura serverless, partycjonowanie, clustering, koszty, UDF, federated queries, scheduled queries, materialized views

20 pytań z rozmów·
Mid-Level
1

Jakiej architektury przechowywania używa BigQuery?

Odpowiedź

BigQuery wykorzystuje architekturę serverless z kolumnowym magazynem danych zwanym Capacitor. Architektura ta oddziela storage i compute, umożliwiając niezależne skalowanie i osobne rozliczanie. Magazyn kolumnowy jest zoptymalizowany pod kątem zapytań analitycznych, ponieważ pozwala czytać tylko potrzebne kolumny, znacznie redukując I/O.

2

Jaka jest główna zaleta partycjonowania tabel w BigQuery?

Odpowiedź

Partycjonowanie dzieli dużą tabelę na mniejsze segmenty na podstawie kolumny (zwykle daty). Podczas zapytań BigQuery może pomijać nieistotne partycje (partition pruning), zmniejszając ilość skanowanych danych. Poprawia to wydajność i zmniejsza koszty, ponieważ BigQuery rozlicza się według ilości przetworzonych danych.

3

Jakie typy partycjonowania są dostępne w BigQuery?

Odpowiedź

BigQuery obsługuje trzy typy partycjonowania: według kolumny DATE lub TIMESTAMP (najczęściej), według zakresu liczb całkowitych (INTEGER RANGE) i według czasu pobierania (_PARTITIONTIME). Partycjonowanie według daty jest zalecane dla danych szeregów czasowych, ponieważ umożliwia wydajne partition pruning na filtrach daty.

4

Jaka jest różnica między partycjonowaniem a clusteringiem w BigQuery?

5

Jak zoptymalizować koszty zapytań w BigQuery?

+17 pytań z rozmów

Opanuj Data Engineering na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo