
PySpark - Великомасштабна обробка
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDF, Spark SQL, caching
1Яка основна точка входу для створення застосунку PySpark?
Яка основна точка входу для створення застосунку PySpark?
Відповідь
SparkSession — це уніфікована точка входу, представлена в Spark 2.0. Вона замінює старі SparkContext, SQLContext і HiveContext одним об'єктом. SparkSession дозволяє створювати DataFrame, виконувати SQL-запити та централізовано налаштовувати застосунок Spark.
2Яка фундаментальна різниця між RDD і DataFrame у PySpark?
Яка фундаментальна різниця між RDD і DataFrame у PySpark?
Відповідь
DataFrame має структуровану схему з іменованими та типізованими стовпцями, що дозволяє Spark оптимізувати запити через Catalyst. RDD — це неструктурована розподілена колекція, де Spark не знає внутрішньої структури даних, що обмежує можливі оптимізації.
3Яка різниця між transformation і action у PySpark?
Яка різниця між transformation і action у PySpark?
Відповідь
Transformation оцінюються ліниво (lazy) і будують план виконання без запуску обчислень. Action запускають фактичне виконання плану на кластері та повертають результат до driver. Це розрізнення дозволяє Spark оптимізувати план перед виконанням.
Яка з наступних операцій є action у PySpark?
Як створити DataFrame з файлу Parquet у PySpark?
+17 питань зі співбесід
Інші теми співбесід Data Engineering
Linux & Shell - Основи
Git & GitHub - Основи
Просунутий Python для Data Engineering
Docker - Основи
Google Cloud Platform - Основи
CI/CD та якість коду
Docker Compose
FastAPI - API даних
Просунутий SQL для Data Engineering
Data Lake - Архітектура та завантаження даних
BigQuery для Data Engineering
PostgreSQL - Адміністрування
Data Modeling для Data Engineering
Fivetran & Airbyte - Завантаження даних
dbt - Основи
Apache Airflow - Основи
Kubernetes - Основи
dbt - Розширені можливості
Патерни ETL / ELT / ETLT
Apache Airflow - Просунутий
Airflow + dbt - Оркестрація пайплайнів
Google Pub/Sub - Стрімінг даних
Apache Beam & Dataflow
Kubernetes - Продакшн та масштабування
Terraform - Infrastructure as Code
Бази даних NoSQL
Сучасна Data Architecture
Моніторинг та спостережуваність
IAM та безпека даних
Опануй Data Engineering для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно