Question 1

Was ist der Haupteinstiegspunkt für die Erstellung einer PySpark-Anwendung?

Accepted Answer

SparkSession ist der einheitliche Einstiegspunkt, der in Spark 2.0 eingeführt wurde. Er ersetzt die alten SparkContext, SQLContext und HiveContext durch ein einziges Objekt. SparkSession ermöglicht das Erstellen von DataFrames, das Ausführen von SQL-Abfragen und die zentralisierte Konfiguration der Spark-Anwendung.

Question 2

Was ist der grundlegende Unterschied zwischen einem RDD und einem DataFrame in PySpark?

Accepted Answer

Ein DataFrame hat ein strukturiertes Schema mit benannten und typisierten Spalten, wodurch Spark Abfragen über Catalyst optimieren kann. Ein RDD ist eine unstrukturierte verteilte Sammlung, bei der Spark die interne Datenstruktur nicht kennt, was mögliche Optimierungen einschränkt.

Question 3

Was ist der Unterschied zwischen einer Transformation und einer Action in PySpark?

Accepted Answer

Transformations werden lazy ausgewertet und erstellen einen Ausführungsplan, ohne eine Berechnung auszulösen. Actions lösen die tatsächliche Ausführung des Plans auf dem Cluster aus und liefern ein Ergebnis an den Driver zurück. Diese Unterscheidung ermöglicht es Spark, den Plan vor der Ausführung zu optimieren.

PySpark - Verarbeitung im großen Maßstab

Was ist der Haupteinstiegspunkt für die Erstellung einer PySpark-Anwendung?

Antwort

Was ist der grundlegende Unterschied zwischen einem RDD und einem DataFrame in PySpark?

Antwort

Was ist der Unterschied zwischen einer Transformation und einer Action in PySpark?

Antwort

Welche der folgenden Operationen ist eine PySpark-Action?

Wie erstellt man ein DataFrame aus einer Parquet-Datei in PySpark?

Weitere Data Engineering-Interviewthemen

Linux & Shell - Grundlagen

Git & GitHub - Grundlagen

Fortgeschrittenes Python für Data Engineering

Docker - Grundlagen

Google Cloud Platform - Grundlagen

CI/CD und Codequalität

Docker Compose

FastAPI - Daten-APIs

Fortgeschrittenes SQL für Data Engineering

Data Lake - Architektur und Ingestion

BigQuery für Data Engineering

PostgreSQL - Administration

Data Modeling für Data Engineering

Fivetran & Airbyte - Daten-Ingestion

dbt - Grundlagen

Apache Airflow - Grundlagen

Kubernetes - Grundlagen

dbt - Erweiterte Funktionen

ETL- / ELT- / ETLT-Patterns

Apache Airflow - Fortgeschritten

Airflow + dbt - Pipeline-Orchestrierung

Google Pub/Sub - Daten-Streaming

Apache Beam & Dataflow

Kubernetes - Produktion und Skalierung

Terraform - Infrastructure as Code

NoSQL-Datenbanken

Moderne Data Architecture

Monitoring und Observability

IAM und Datensicherheit

Meistere Data Engineering für dein nächstes Interview