
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, автомасштабування, templates
1Що таке PCollection в Apache Beam?
Що таке PCollection в Apache Beam?
Відповідь
PCollection — це основна абстракція даних в Apache Beam. Вона представляє розподілений, потенційно необмежений набір даних, який можна обробляти паралельно. На відміну від звичайних колекцій, PCollection є незмінною, тобто кожен transform створює нову PCollection замість зміни оригіналу.
2У чому головна різниця між bounded і unbounded PCollection?
У чому головна різниця між bounded і unbounded PCollection?
Відповідь
Bounded PCollection має скінченний, відомий розмір (як файл або таблиця), тоді як unbounded представляє потенційно нескінченний потік даних (як потокові події). Ця відмінність впливає на те, як Beam обробляє дані: bounded використовує класичну пакетну обробку, тоді як unbounded потребує windowing і triggers для обробки безперервного потоку.
3Яка роль перетворення ParDo в Apache Beam?
Яка роль перетворення ParDo в Apache Beam?
Відповідь
ParDo (Parallel Do) — найгнучкіше перетворення в Apache Beam. Воно застосовує визначену користувачем функцію (DoFn) до кожного елемента PCollection паралельно. ParDo може створювати нуль, один або кілька вихідних елементів для кожного вхідного елемента, що робить його придатним для фільтрації, mapping і flat-mapping.
Як використовувати side inputs у перетворенні ParDo?
У чому різниця між GroupByKey і CoGroupByKey в Apache Beam?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
PySpark - Великомасштабна обробка
Google Pub/Sub - Стрімінг даних
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно