
PySpark - Büyük Ölçekli İşleme
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDF'ler, Spark SQL, caching
1PySpark uygulaması oluşturmak için ana giriş noktası nedir?
PySpark uygulaması oluşturmak için ana giriş noktası nedir?
Cevap
SparkSession, Spark 2.0 ile tanıtılan birleşik giriş noktasıdır. Eski SparkContext, SQLContext ve HiveContext'i tek bir nesneyle değiştirir. SparkSession, DataFrame'ler oluşturmaya, SQL sorgularını yürütmeye ve Spark uygulamasını merkezi olarak yapılandırmaya olanak tanır.
2PySpark'ta RDD ile DataFrame arasındaki temel fark nedir?
PySpark'ta RDD ile DataFrame arasındaki temel fark nedir?
Cevap
DataFrame, adlandırılmış ve tip belirtilmiş sütunlarla yapılandırılmış bir şemaya sahiptir ve Spark'ın sorguları Catalyst aracılığıyla optimize etmesine olanak tanır. RDD ise Spark'ın iç veri yapısını bilmediği yapılandırılmamış dağıtılmış bir koleksiyondur ve olası optimizasyonları sınırlar.
3PySpark'ta transformation ile action arasındaki fark nedir?
PySpark'ta transformation ile action arasındaki fark nedir?
Cevap
Transformation'lar lazy olarak değerlendirilir ve hesaplama tetiklemeden bir yürütme planı oluşturur. Action'lar planın cluster üzerinde gerçek yürütülmesini tetikler ve driver'a bir sonuç döndürür. Bu ayrım, Spark'ın planı yürütmeden önce optimize etmesine olanak tanır.
Aşağıdaki işlemlerden hangisi bir PySpark action'ıdır?
PySpark'ta Parquet dosyasından nasıl DataFrame oluşturulur?
+17 mülakat soruları
Diğer Data Engineering mülakat konuları
Linux & Shell - Temeller
Git & GitHub - Temeller
Data Engineering için ileri düzey Python
Docker - Temeller
Google Cloud Platform - Temeller
CI/CD ve Kod Kalitesi
Docker Compose
FastAPI - Veri API'leri
Data Engineering için İleri Seviye SQL
Data Lake - Mimari ve Veri Alımı
Data Engineering için BigQuery
PostgreSQL - Yönetim
Data Engineering için Data Modeling
Fivetran & Airbyte - Veri Alımı
dbt - Temeller
Apache Airflow - Temeller
Kubernetes - Temeller
dbt - Gelişmiş özellikler
ETL / ELT / ETLT Desenleri
Apache Airflow - İleri Seviye
Airflow + dbt - Pipeline Orkestrasyonu
Google Pub/Sub - Veri Streaming
Apache Beam & Dataflow
Kubernetes - Üretim ve Ölçeklendirme
Terraform - Infrastructure as Code
NoSQL Veritabanları
Modern Data Architecture
İzleme ve Gözlemlenebilirlik
IAM ve Veri Güvenliği
Bir sonraki mülakatın için Data Engineering'de uzmanlaş
Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.
Ücretsiz başla