Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, autoscaling, templates

20 mülakat soruları·
Senior
1

Apache Beam'de PCollection nedir?

Cevap

PCollection, Apache Beam'deki birincil veri soyutlamasıdır. Paralel olarak işlenebilen, dağıtılmış ve potansiyel olarak sınırsız bir veri kümesini temsil eder. Sıradan koleksiyonların aksine, PCollection değişmezdir, yani her transform orijinali değiştirmek yerine yeni bir PCollection oluşturur.

2

bounded ve unbounded PCollection arasındaki temel fark nedir?

Cevap

bounded PCollection sonlu, bilinen bir boyuta (dosya veya tablo gibi) sahipken, unbounded potansiyel olarak sonsuz bir veri akışını (streaming olayları gibi) temsil eder. Bu ayrım, Beam'in verileri nasıl işlediğini etkiler: bounded klasik batch işlemeyi kullanırken, unbounded sürekli akışı yönetmek için windowing ve trigger gerektirir.

3

Apache Beam'de ParDo dönüşümünün rolü nedir?

Cevap

ParDo (Parallel Do), Apache Beam'deki en esnek dönüşümdür. Bir PCollection'ın her elemanına paralel olarak kullanıcı tanımlı bir fonksiyon (DoFn) uygular. ParDo, her giriş elemanı için sıfır, bir veya birden fazla çıkış elemanı üretebilir, bu da onu filtreleme, mapping ve flat-mapping için uygun kılar.

4

ParDo dönüşümünde side input nasıl kullanılır?

5

Apache Beam'de GroupByKey ile CoGroupByKey arasındaki fark nedir?

+17 mülakat soruları

Bir sonraki mülakatın için Data Engineering'de uzmanlaş

Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.

Ücretsiz başla