Question 1

Wat is het belangrijkste startpunt voor het maken van een PySpark-applicatie?

Accepted Answer

SparkSession is het uniforme startpunt dat in Spark 2.0 werd geïntroduceerd. Het vervangt de oude SparkContext, SQLContext en HiveContext door één enkel object. SparkSession maakt het mogelijk om DataFrames te maken, SQL-queries uit te voeren en de Spark-applicatie centraal te configureren.

Question 2

Wat is het fundamentele verschil tussen een RDD en een DataFrame in PySpark?

Accepted Answer

Een DataFrame heeft een gestructureerd schema met benoemde en getypeerde kolommen, waardoor Spark queries kan optimaliseren via Catalyst. Een RDD is een ongestructureerde gedistribueerde collectie waarbij Spark de interne datastructuur niet kent, wat mogelijke optimalisaties beperkt.

Question 3

Wat is het verschil tussen een transformation en een action in PySpark?

Accepted Answer

Transformations worden lazy geëvalueerd en bouwen een uitvoeringsplan op zonder berekening te starten. Actions starten de daadwerkelijke uitvoering van het plan op het cluster en geven een resultaat terug aan de driver. Dit onderscheid stelt Spark in staat het plan vóór de uitvoering te optimaliseren.

PySpark - Grootschalige verwerking

Wat is het belangrijkste startpunt voor het maken van een PySpark-applicatie?

Antwoord

Wat is het fundamentele verschil tussen een RDD en een DataFrame in PySpark?

Antwoord

Wat is het verschil tussen een transformation en een action in PySpark?

Antwoord

Welke van de volgende operaties is een PySpark-action?

Hoe maak je een DataFrame van een Parquet-bestand in PySpark?

Andere Data Engineering-sollicitatieonderwerpen

Linux & Shell - Grondbeginselen

Git & GitHub - Grondbeginselen

Geavanceerde Python voor Data Engineering

Docker - Basisbeginselen

Google Cloud Platform - Fundamenten

CI/CD en codekwaliteit

Docker Compose

FastAPI - Data-API's

Geavanceerde SQL voor Data Engineering

Data Lake - Architectuur en ingestie

BigQuery voor Data Engineering

PostgreSQL - Administratie

Data Modeling voor Data Engineering

Fivetran & Airbyte - Data-ingestie

dbt - Grondbeginselen

Apache Airflow - Grondbeginselen

Kubernetes - Fundamenten

dbt - Geavanceerde functies

ETL- / ELT- / ETLT-patronen

Apache Airflow - Gevorderd

Airflow + dbt - Pipeline-orkestratie

Google Pub/Sub - Datastreaming

Apache Beam & Dataflow

Kubernetes - Productie en scaling

Terraform - Infrastructure as Code

NoSQL-databases

Moderne Data Architecture

Monitoring en observability

IAM en gegevensbeveiliging

Beheers Data Engineering voor je volgende gesprek