Question 1

Apache Beam에서 PCollection이란 무엇입니까?

Accepted Answer

PCollection은 Apache Beam의 주요 데이터 추상화입니다. 병렬로 처리할 수 있는 분산되고 잠재적으로 무제한인 데이터셋을 나타냅니다. 일반 컬렉션과 달리 PCollection은 불변이며, 각 transform은 원본을 수정하지 않고 새로운 PCollection을 생성합니다.

Question 2

bounded PCollection과 unbounded PCollection의 주요 차이점은 무엇입니까?

Accepted Answer

bounded PCollection은 유한하고 알려진 크기(파일이나 테이블처럼)를 가지는 반면, unbounded는 잠재적으로 무한한 데이터 스트림(스트리밍 이벤트처럼)을 나타냅니다. 이 차이는 Beam이 데이터를 처리하는 방식에 영향을 미칩니다: bounded는 기존 배치 처리를 사용하는 반면, unbounded는 연속적인 흐름을 처리하기 위해 windowing과 trigger가 필요합니다.

Question 3

Apache Beam에서 ParDo 변환의 역할은 무엇입니까?

Accepted Answer

ParDo(Parallel Do)는 Apache Beam에서 가장 유연한 변환입니다. PCollection의 각 요소에 사용자 정의 함수(DoFn)를 병렬로 적용합니다. ParDo는 각 입력 요소에 대해 0개, 1개 또는 여러 개의 출력 요소를 생성할 수 있어 필터링, 매핑, 플랫매핑에 적합합니다.

Apache Beam & Dataflow

Apache Beam에서 PCollection이란 무엇입니까?

답변

bounded PCollection과 unbounded PCollection의 주요 차이점은 무엇입니까?

답변

Apache Beam에서 ParDo 변환의 역할은 무엇입니까?

답변

ParDo 변환에서 side input을 어떻게 사용합니까?

Apache Beam에서 GroupByKey와 CoGroupByKey의 차이점은 무엇입니까?

기타 Data Engineering 면접 주제

Linux & Shell - 기초

Git & GitHub - 기초

데이터 엔지니어링을 위한 고급 Python

Docker - 기초

Google Cloud Platform - 기초

CI/CD 및 코드 품질

Docker Compose

FastAPI - 데이터 API

Data Engineering을 위한 고급 SQL

Data Lake - 아키텍처 및 수집

데이터 엔지니어링을 위한 BigQuery

PostgreSQL - 관리

Data Engineering을 위한 Data Modeling

Fivetran & Airbyte - 데이터 수집

dbt - 기초

Apache Airflow - 기초

Kubernetes - 기초

dbt - 고급 기능

ETL / ELT / ETLT 패턴

Apache Airflow - 고급

Airflow + dbt - 파이프라인 오케스트레이션

PySpark - 대규모 처리

Google Pub/Sub - 데이터 스트리밍

Kubernetes - 프로덕션 및 스케일링

Terraform - Infrastructure as Code

NoSQL 데이터베이스

모던 Data Architecture

모니터링 및 관찰 가능성

IAM 및 데이터 보안

다음 면접을 위해 Data Engineering을 마스터하세요