Question 1

Jaki jest główny punkt wejścia do tworzenia aplikacji PySpark?

Accepted Answer

SparkSession to ujednolicony punkt wejścia wprowadzony w Spark 2.0. Zastępuje stare SparkContext, SQLContext i HiveContext jednym obiektem. SparkSession umożliwia tworzenie DataFrame'ów, wykonywanie zapytań SQL oraz scentralizowane konfigurowanie aplikacji Spark.

Question 2

Jaka jest fundamentalna różnica między RDD a DataFrame w PySpark?

Accepted Answer

DataFrame ma ustrukturyzowany schemat z nazwanymi i typowanymi kolumnami, co pozwala Spark optymalizować zapytania poprzez Catalyst. RDD to nieustrukturyzowana rozproszona kolekcja, w której Spark nie zna wewnętrznej struktury danych, ograniczając możliwe optymalizacje.

Question 3

Jaka jest różnica między transformation a action w PySpark?

Accepted Answer

Transformacje są oceniane leniwie (lazy) i budują plan wykonania bez wyzwalania obliczeń. Akcje wyzwalają faktyczne wykonanie planu na klastrze i zwracają wynik do drivera. To rozróżnienie pozwala Sparkowi optymalizować plan przed wykonaniem.

PySpark - Przetwarzanie na dużą skalę

Jaki jest główny punkt wejścia do tworzenia aplikacji PySpark?

Odpowiedź

Jaka jest fundamentalna różnica między RDD a DataFrame w PySpark?

Odpowiedź

Jaka jest różnica między transformation a action w PySpark?

Odpowiedź

Która z poniższych operacji jest action w PySpark?

Jak utworzyć DataFrame z pliku Parquet w PySpark?

Inne tematy rekrutacyjne Data Engineering

Linux & Shell - Podstawy

Git & GitHub - Podstawy

Zaawansowany Python dla Data Engineering

Docker - Podstawy

Google Cloud Platform - Podstawy

CI/CD i jakość kodu

Docker Compose

FastAPI - API danych

Zaawansowany SQL dla Data Engineering

Data Lake - Architektura i wprowadzanie danych

BigQuery dla Data Engineering

PostgreSQL - Administracja

Data Modeling dla Data Engineering

Fivetran & Airbyte - Pozyskiwanie danych

dbt - Podstawy

Apache Airflow - Podstawy

Kubernetes - Podstawy

dbt - Zaawansowane funkcje

Wzorce ETL / ELT / ETLT

Apache Airflow - Zaawansowany

Airflow + dbt - Orkiestracja pipeline'ów

Google Pub/Sub - Streaming danych

Apache Beam & Dataflow

Kubernetes - Produkcja i skalowanie

Terraform - Infrastructure as Code

Bazy danych NoSQL

Nowoczesna Data Architecture

Monitorowanie i obserwowalność

IAM i bezpieczeństwo danych

Opanuj Data Engineering na następną rozmowę