
PySpark - Verarbeitung im großen Maßstab
SparkSession, RDD vs DataFrame, Transformations, Actions, Partitioning, Broadcast Variables, UDFs, Spark SQL, Caching
1Was ist der Haupteinstiegspunkt für die Erstellung einer PySpark-Anwendung?
Was ist der Haupteinstiegspunkt für die Erstellung einer PySpark-Anwendung?
Antwort
SparkSession ist der einheitliche Einstiegspunkt, der in Spark 2.0 eingeführt wurde. Er ersetzt die alten SparkContext, SQLContext und HiveContext durch ein einziges Objekt. SparkSession ermöglicht das Erstellen von DataFrames, das Ausführen von SQL-Abfragen und die zentralisierte Konfiguration der Spark-Anwendung.
2Was ist der grundlegende Unterschied zwischen einem RDD und einem DataFrame in PySpark?
Was ist der grundlegende Unterschied zwischen einem RDD und einem DataFrame in PySpark?
Antwort
Ein DataFrame hat ein strukturiertes Schema mit benannten und typisierten Spalten, wodurch Spark Abfragen über Catalyst optimieren kann. Ein RDD ist eine unstrukturierte verteilte Sammlung, bei der Spark die interne Datenstruktur nicht kennt, was mögliche Optimierungen einschränkt.
3Was ist der Unterschied zwischen einer Transformation und einer Action in PySpark?
Was ist der Unterschied zwischen einer Transformation und einer Action in PySpark?
Antwort
Transformations werden lazy ausgewertet und erstellen einen Ausführungsplan, ohne eine Berechnung auszulösen. Actions lösen die tatsächliche Ausführung des Plans auf dem Cluster aus und liefern ein Ergebnis an den Driver zurück. Diese Unterscheidung ermöglicht es Spark, den Plan vor der Ausführung zu optimieren.
Welche der folgenden Operationen ist eine PySpark-Action?
Wie erstellt man ein DataFrame aus einer Parquet-Datei in PySpark?
+17 Interview-Fragen
Weitere Data Engineering-Interviewthemen
Linux & Shell - Grundlagen
Git & GitHub - Grundlagen
Fortgeschrittenes Python für Data Engineering
Docker - Grundlagen
Google Cloud Platform - Grundlagen
CI/CD und Codequalität
Docker Compose
FastAPI - Daten-APIs
Fortgeschrittenes SQL für Data Engineering
Data Lake - Architektur und Ingestion
BigQuery für Data Engineering
PostgreSQL - Administration
Data Modeling für Data Engineering
Fivetran & Airbyte - Daten-Ingestion
dbt - Grundlagen
Apache Airflow - Grundlagen
Kubernetes - Grundlagen
dbt - Erweiterte Funktionen
ETL- / ELT- / ETLT-Patterns
Apache Airflow - Fortgeschritten
Airflow + dbt - Pipeline-Orchestrierung
Google Pub/Sub - Daten-Streaming
Apache Beam & Dataflow
Kubernetes - Produktion und Skalierung
Terraform - Infrastructure as Code
NoSQL-Datenbanken
Moderne Data Architecture
Monitoring und Observability
IAM und Datensicherheit
Meistere Data Engineering für dein nächstes Interview
Zugang zu allen Fragen, Flashcards, technischen Tests, Code-Review-Übungen und Interview-Simulatoren.
Kostenlos starten