Question 1

Czym jest PCollection w Apache Beam?

Accepted Answer

PCollection to główna abstrakcja danych w Apache Beam. Reprezentuje rozproszony, potencjalnie nieograniczony zbiór danych, który może być przetwarzany równolegle. W przeciwieństwie do zwykłych kolekcji, PCollection jest niezmienna, co oznacza, że każdy transform tworzy nową PCollection zamiast modyfikować oryginał.

Question 2

Jaka jest główna różnica między PCollection bounded a unbounded?

Accepted Answer

PCollection bounded ma skończony, znany rozmiar (jak plik lub tabela), podczas gdy unbounded reprezentuje potencjalnie nieskończony strumień danych (jak zdarzenia streamingowe). To rozróżnienie wpływa na sposób przetwarzania danych przez Beam: bounded używa klasycznego przetwarzania batch, podczas gdy unbounded wymaga windowingu i triggerów do obsługi ciągłego przepływu.

Question 3

Jaka jest rola transformacji ParDo w Apache Beam?

Accepted Answer

ParDo (Parallel Do) to najbardziej elastyczna transformacja w Apache Beam. Stosuje funkcję zdefiniowaną przez użytkownika (DoFn) do każdego elementu PCollection równolegle. ParDo może wytworzyć zero, jeden lub wiele elementów wyjściowych dla każdego elementu wejściowego, co czyni ją odpowiednią do filtrowania, mappingu i flat-mappingu.

Apache Beam & Dataflow

Czym jest PCollection w Apache Beam?

Odpowiedź

Jaka jest główna różnica między PCollection bounded a unbounded?

Odpowiedź

Jaka jest rola transformacji ParDo w Apache Beam?

Odpowiedź

Jak używać side inputs w transformacji ParDo?

Jaka jest różnica między GroupByKey a CoGroupByKey w Apache Beam?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

BigQuery dla Data Engineering

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

PySpark - Przetwarzanie na dużą skalę

Google Pub/Sub - Streaming danych

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę