Question 1

Яка основна точка входу для створення застосунку PySpark?

Accepted Answer

SparkSession — це уніфікована точка входу, представлена в Spark 2.0. Вона замінює старі SparkContext, SQLContext і HiveContext одним об'єктом. SparkSession дозволяє створювати DataFrame, виконувати SQL-запити та централізовано налаштовувати застосунок Spark.

Question 2

Яка фундаментальна різниця між RDD і DataFrame у PySpark?

Accepted Answer

DataFrame має структуровану схему з іменованими та типізованими стовпцями, що дозволяє Spark оптимізувати запити через Catalyst. RDD — це неструктурована розподілена колекція, де Spark не знає внутрішньої структури даних, що обмежує можливі оптимізації.

Question 3

Яка різниця між transformation і action у PySpark?

Accepted Answer

Transformation оцінюються ліниво (lazy) і будують план виконання без запуску обчислень. Action запускають фактичне виконання плану на кластері та повертають результат до driver. Це розрізнення дозволяє Spark оптимізувати план перед виконанням.

PySpark - Великомасштабна обробка

Яка основна точка входу для створення застосунку PySpark?

Відповідь

Яка фундаментальна різниця між RDD і DataFrame у PySpark?

Відповідь

Яка різниця між transformation і action у PySpark?

Відповідь

Яка з наступних операцій є action у PySpark?

Як створити DataFrame з файлу Parquet у PySpark?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Бази даних NoSQL

Сучасна Data Architecture

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди