
Apache Beam & Dataflow
PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates
1Apache Beam'de PCollection nedir?
Apache Beam'de PCollection nedir?
Cevap
PCollection, Apache Beam'deki birincil veri soyutlamasıdır. Paralel olarak işlenebilen, dağıtılmış ve potansiyel olarak sınırsız bir veri kümesini temsil eder. Sıradan koleksiyonların aksine, PCollection değişmezdir, yani her transform orijinali değiştirmek yerine yeni bir PCollection oluşturur.
2bounded ve unbounded PCollection arasındaki temel fark nedir?
bounded ve unbounded PCollection arasındaki temel fark nedir?
Cevap
bounded PCollection sonlu, bilinen bir boyuta (dosya veya tablo gibi) sahipken, unbounded potansiyel olarak sonsuz bir veri akışını (streaming olayları gibi) temsil eder. Bu ayrım, Beam'in verileri nasıl işlediğini etkiler: bounded klasik batch işlemeyi kullanırken, unbounded sürekli akışı yönetmek için windowing ve trigger gerektirir.
3Apache Beam'de ParDo dönüşümünün rolü nedir?
Apache Beam'de ParDo dönüşümünün rolü nedir?
Cevap
ParDo (Parallel Do), Apache Beam'deki en esnek dönüşümdür. Bir PCollection'ın her elemanına paralel olarak kullanıcı tanımlı bir fonksiyon (DoFn) uygular. ParDo, her giriş elemanı için sıfır, bir veya birden fazla çıkış elemanı üretebilir, bu da onu filtreleme, mapping ve flat-mapping için uygun kılar.
ParDo dönüşümünde side input nasıl kullanılır?
Apache Beam'de GroupByKey ile CoGroupByKey arasındaki fark nedir?
+17 mülakat soruları
Diğer Data Engineering mülakat konuları
Linux & Shell - Temeller
Git & GitHub - Temeller
Data Engineering için ileri düzey Python
Docker - Temeller
Google Cloud Platform - Temeller
CI/CD ve Kod Kalitesi
Docker Compose
FastAPI - Veri API'leri
Data Engineering için İleri Seviye SQL
Data Lake - Mimari ve Veri Alımı
Data Engineering için BigQuery
PostgreSQL - Yönetim
Data Engineering için Data Modeling
Fivetran & Airbyte - Veri Alımı
dbt - Temeller
Apache Airflow - Temeller
Kubernetes - Temeller
dbt - Gelişmiş özellikler
ETL / ELT / ETLT Desenleri
Apache Airflow - İleri Seviye
Airflow + dbt - Pipeline Orkestrasyonu
PySpark - Büyük Ölçekli İşleme
Google Pub/Sub - Veri Streaming
Kubernetes - Üretim ve Ölçeklendirme
Terraform - Infrastructure as Code
NoSQL Veritabanları
Modern Data Architecture
İzleme ve Gözlemlenebilirlik
IAM ve Veri Güvenliği
Bir sonraki mülakatın için Data Engineering'de uzmanlaş
Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.
Ücretsiz başla