Data Engineering

PySpark - Büyük Ölçekli İşleme

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDF'ler, Spark SQL, caching

20 mülakat soruları·
Senior
1

PySpark uygulaması oluşturmak için ana giriş noktası nedir?

Cevap

SparkSession, Spark 2.0 ile tanıtılan birleşik giriş noktasıdır. Eski SparkContext, SQLContext ve HiveContext'i tek bir nesneyle değiştirir. SparkSession, DataFrame'ler oluşturmaya, SQL sorgularını yürütmeye ve Spark uygulamasını merkezi olarak yapılandırmaya olanak tanır.

2

PySpark'ta RDD ile DataFrame arasındaki temel fark nedir?

Cevap

DataFrame, adlandırılmış ve tip belirtilmiş sütunlarla yapılandırılmış bir şemaya sahiptir ve Spark'ın sorguları Catalyst aracılığıyla optimize etmesine olanak tanır. RDD ise Spark'ın iç veri yapısını bilmediği yapılandırılmamış dağıtılmış bir koleksiyondur ve olası optimizasyonları sınırlar.

3

PySpark'ta transformation ile action arasındaki fark nedir?

Cevap

Transformation'lar lazy olarak değerlendirilir ve hesaplama tetiklemeden bir yürütme planı oluşturur. Action'lar planın cluster üzerinde gerçek yürütülmesini tetikler ve driver'a bir sonuç döndürür. Bu ayrım, Spark'ın planı yürütmeden önce optimize etmesine olanak tanır.

4

Aşağıdaki işlemlerden hangisi bir PySpark action'ıdır?

5

PySpark'ta Parquet dosyasından nasıl DataFrame oluşturulur?

+17 mülakat soruları

Bir sonraki mülakatın için Data Engineering'de uzmanlaş

Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.

Ücretsiz başla