Data Engineering

Apache Beam & Dataflow

PCollections, transforms (ParDo, GroupByKey), windowing, triggers, watermarks, Dataflow runner, 오토스케일링, templates

20 면접 질문·
Senior
1

Apache Beam에서 PCollection이란 무엇입니까?

답변

PCollection은 Apache Beam의 주요 데이터 추상화입니다. 병렬로 처리할 수 있는 분산되고 잠재적으로 무제한인 데이터셋을 나타냅니다. 일반 컬렉션과 달리 PCollection은 불변이며, 각 transform은 원본을 수정하지 않고 새로운 PCollection을 생성합니다.

2

bounded PCollection과 unbounded PCollection의 주요 차이점은 무엇입니까?

답변

bounded PCollection은 유한하고 알려진 크기(파일이나 테이블처럼)를 가지는 반면, unbounded는 잠재적으로 무한한 데이터 스트림(스트리밍 이벤트처럼)을 나타냅니다. 이 차이는 Beam이 데이터를 처리하는 방식에 영향을 미칩니다: bounded는 기존 배치 처리를 사용하는 반면, unbounded는 연속적인 흐름을 처리하기 위해 windowing과 trigger가 필요합니다.

3

Apache Beam에서 ParDo 변환의 역할은 무엇입니까?

답변

ParDo(Parallel Do)는 Apache Beam에서 가장 유연한 변환입니다. PCollection의 각 요소에 사용자 정의 함수(DoFn)를 병렬로 적용합니다. ParDo는 각 입력 요소에 대해 0개, 1개 또는 여러 개의 출력 요소를 생성할 수 있어 필터링, 매핑, 플랫매핑에 적합합니다.

4

ParDo 변환에서 side input을 어떻게 사용합니까?

5

Apache Beam에서 GroupByKey와 CoGroupByKey의 차이점은 무엇입니까?

+17 면접 질문

다음 면접을 위해 Data Engineering을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기