
PySpark - Przetwarzanie na dużą skalę
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDF, Spark SQL, caching
1Jaki jest główny punkt wejścia do tworzenia aplikacji PySpark?
Jaki jest główny punkt wejścia do tworzenia aplikacji PySpark?
Odpowiedź
SparkSession to ujednolicony punkt wejścia wprowadzony w Spark 2.0. Zastępuje stare SparkContext, SQLContext i HiveContext jednym obiektem. SparkSession umożliwia tworzenie DataFrame'ów, wykonywanie zapytań SQL oraz scentralizowane konfigurowanie aplikacji Spark.
2Jaka jest fundamentalna różnica między RDD a DataFrame w PySpark?
Jaka jest fundamentalna różnica między RDD a DataFrame w PySpark?
Odpowiedź
DataFrame ma ustrukturyzowany schemat z nazwanymi i typowanymi kolumnami, co pozwala Spark optymalizować zapytania poprzez Catalyst. RDD to nieustrukturyzowana rozproszona kolekcja, w której Spark nie zna wewnętrznej struktury danych, ograniczając możliwe optymalizacje.
3Jaka jest różnica między transformation a action w PySpark?
Jaka jest różnica między transformation a action w PySpark?
Odpowiedź
Transformacje są oceniane leniwie (lazy) i budują plan wykonania bez wyzwalania obliczeń. Akcje wyzwalają faktyczne wykonanie planu na klastrze i zwracają wynik do drivera. To rozróżnienie pozwala Sparkowi optymalizować plan przed wykonaniem.
Która z poniższych operacji jest action w PySpark?
Jak utworzyć DataFrame z pliku Parquet w PySpark?
+17 pytań z rozmów
Inne tematy rekrutacyjne Data Engineering
Linux & Shell - Podstawy
Git & GitHub - Podstawy
Zaawansowany Python dla Data Engineering
Docker - Podstawy
Google Cloud Platform - Podstawy
CI/CD i jakość kodu
Docker Compose
FastAPI - API danych
Zaawansowany SQL dla Data Engineering
Data Lake - Architektura i wprowadzanie danych
BigQuery dla Data Engineering
PostgreSQL - Administracja
Data Modeling dla Data Engineering
Fivetran & Airbyte - Pozyskiwanie danych
dbt - Podstawy
Apache Airflow - Podstawy
Kubernetes - Podstawy
dbt - Zaawansowane funkcje
Wzorce ETL / ELT / ETLT
Apache Airflow - Zaawansowany
Airflow + dbt - Orkiestracja pipeline'ów
Google Pub/Sub - Streaming danych
Apache Beam & Dataflow
Kubernetes - Produkcja i skalowanie
Terraform - Infrastructure as Code
Bazy danych NoSQL
Nowoczesna Data Architecture
Monitorowanie i obserwowalność
IAM i bezpieczeństwo danych
Opanuj Data Engineering na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo