
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoskalowanie, templates
1Czym jest PCollection w Apache Beam?
Czym jest PCollection w Apache Beam?
Odpowiedź
PCollection to główna abstrakcja danych w Apache Beam. Reprezentuje rozproszony, potencjalnie nieograniczony zbiór danych, który może być przetwarzany równolegle. W przeciwieństwie do zwykłych kolekcji, PCollection jest niezmienna, co oznacza, że każdy transform tworzy nową PCollection zamiast modyfikować oryginał.
2Jaka jest główna różnica między PCollection bounded a unbounded?
Jaka jest główna różnica między PCollection bounded a unbounded?
Odpowiedź
PCollection bounded ma skończony, znany rozmiar (jak plik lub tabela), podczas gdy unbounded reprezentuje potencjalnie nieskończony strumień danych (jak zdarzenia streamingowe). To rozróżnienie wpływa na sposób przetwarzania danych przez Beam: bounded używa klasycznego przetwarzania batch, podczas gdy unbounded wymaga windowingu i triggerów do obsługi ciągłego przepływu.
3Jaka jest rola transformacji ParDo w Apache Beam?
Jaka jest rola transformacji ParDo w Apache Beam?
Odpowiedź
ParDo (Parallel Do) to najbardziej elastyczna transformacja w Apache Beam. Stosuje funkcję zdefiniowaną przez użytkownika (DoFn) do każdego elementu PCollection równolegle. ParDo może wytworzyć zero, jeden lub wiele elementów wyjściowych dla każdego elementu wejściowego, co czyni ją odpowiednią do filtrowania, mappingu i flat-mappingu.
Jak używać side inputs w transformacji ParDo?
Jaka jest różnica między GroupByKey a CoGroupByKey w Apache Beam?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
PySpark - Przetwarzanie na dużą skalę
Google Pub/Sub - Streaming danych
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo