Question 1

Що таке PCollection в Apache Beam?

Accepted Answer

PCollection — це основна абстракція даних в Apache Beam. Вона представляє розподілений, потенційно необмежений набір даних, який можна обробляти паралельно. На відміну від звичайних колекцій, PCollection є незмінною, тобто кожен transform створює нову PCollection замість зміни оригіналу.

Question 2

У чому головна різниця між bounded і unbounded PCollection?

Accepted Answer

Bounded PCollection має скінченний, відомий розмір (як файл або таблиця), тоді як unbounded представляє потенційно нескінченний потік даних (як потокові події). Ця відмінність впливає на те, як Beam обробляє дані: bounded використовує класичну пакетну обробку, тоді як unbounded потребує windowing і triggers для обробки безперервного потоку.

Question 3

Яка роль перетворення ParDo в Apache Beam?

Accepted Answer

ParDo (Parallel Do) — найгнучкіше перетворення в Apache Beam. Воно застосовує визначену користувачем функцію (DoFn) до кожного елемента PCollection паралельно. ParDo може створювати нуль, один або кілька вихідних елементів для кожного вхідного елемента, що робить його придатним для фільтрації, mapping і flat-mapping.

Apache Beam & Dataflow

Що таке PCollection в Apache Beam?

Відповідь

У чому головна різниця між bounded і unbounded PCollection?

Відповідь

Яка роль перетворення ParDo в Apache Beam?

Відповідь

Як використовувати side inputs у перетворенні ParDo?

У чому різниця між GroupByKey і CoGroupByKey в Apache Beam?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди