
PySpark - Grootschalige verwerking
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
1Wat is het belangrijkste startpunt voor het maken van een PySpark-applicatie?
Wat is het belangrijkste startpunt voor het maken van een PySpark-applicatie?
Antwoord
SparkSession is het uniforme startpunt dat in Spark 2.0 werd geïntroduceerd. Het vervangt de oude SparkContext, SQLContext en HiveContext door één enkel object. SparkSession maakt het mogelijk om DataFrames te maken, SQL-queries uit te voeren en de Spark-applicatie centraal te configureren.
2Wat is het fundamentele verschil tussen een RDD en een DataFrame in PySpark?
Wat is het fundamentele verschil tussen een RDD en een DataFrame in PySpark?
Antwoord
Een DataFrame heeft een gestructureerd schema met benoemde en getypeerde kolommen, waardoor Spark queries kan optimaliseren via Catalyst. Een RDD is een ongestructureerde gedistribueerde collectie waarbij Spark de interne datastructuur niet kent, wat mogelijke optimalisaties beperkt.
3Wat is het verschil tussen een transformation en een action in PySpark?
Wat is het verschil tussen een transformation en een action in PySpark?
Antwoord
Transformations worden lazy geëvalueerd en bouwen een uitvoeringsplan op zonder berekening te starten. Actions starten de daadwerkelijke uitvoering van het plan op het cluster en geven een resultaat terug aan de driver. Dit onderscheid stelt Spark in staat het plan vóór de uitvoering te optimaliseren.
Welke van de volgende operaties is een PySpark-action?
Hoe maak je een DataFrame van een Parquet-bestand in PySpark?
+17 gespreksvragen
Andere Data Engineering-sollicitatieonderwerpen
Linux & Shell - Grondbeginselen
Git & GitHub - Grondbeginselen
Geavanceerde Python voor Data Engineering
Docker - Basisbeginselen
Google Cloud Platform - Fundamenten
CI/CD en codekwaliteit
Docker Compose
FastAPI - Data-API's
Geavanceerde SQL voor Data Engineering
Data Lake - Architectuur en ingestie
BigQuery voor Data Engineering
PostgreSQL - Administratie
Data Modeling voor Data Engineering
Fivetran & Airbyte - Data-ingestie
dbt - Grondbeginselen
Apache Airflow - Grondbeginselen
Kubernetes - Fundamenten
dbt - Geavanceerde functies
ETL- / ELT- / ETLT-patronen
Apache Airflow - Gevorderd
Airflow + dbt - Pipeline-orkestratie
Google Pub/Sub - Datastreaming
Apache Beam & Dataflow
Kubernetes - Productie en scaling
Terraform - Infrastructure as Code
NoSQL-databases
Moderne Data Architecture
Monitoring en observability
IAM en gegevensbeveiliging
Beheers Data Engineering voor je volgende gesprek
Krijg toegang tot alle vragen, flashcards, technische tests, code review-oefeningen en gespreksimulatoren.
Begin gratis