Question 1

PySpark 애플리케이션을 만들기 위한 주요 진입점은 무엇입니까?

Accepted Answer

SparkSession은 Spark 2.0에서 도입된 통합 진입점입니다. 기존의 SparkContext, SQLContext, HiveContext를 단일 객체로 대체합니다. SparkSession을 통해 DataFrame 생성, SQL 쿼리 실행, Spark 애플리케이션을 중앙 집중식으로 구성할 수 있습니다.

Question 2

PySpark에서 RDD와 DataFrame의 근본적인 차이점은 무엇입니까?

Accepted Answer

DataFrame은 이름과 타입이 지정된 컬럼을 가진 구조화된 스키마를 가지고 있어 Spark가 Catalyst를 통해 쿼리를 최적화할 수 있습니다. RDD는 구조화되지 않은 분산 컬렉션으로, Spark가 내부 데이터 구조를 알지 못하므로 최적화가 제한됩니다.

Question 3

PySpark에서 transformation과 action의 차이점은 무엇입니까?

Accepted Answer

transformation은 지연 평가되며 계산을 트리거하지 않고 실행 계획을 구축합니다. action은 클러스터에서 계획의 실제 실행을 트리거하고 driver에 결과를 반환합니다. 이러한 구분 덕분에 Spark는 실행 전에 계획을 최적화할 수 있습니다.

PySpark - 대규모 처리

PySpark 애플리케이션을 만들기 위한 주요 진입점은 무엇입니까?

답변

PySpark에서 RDD와 DataFrame의 근본적인 차이점은 무엇입니까?

답변

PySpark에서 transformation과 action의 차이점은 무엇입니까?

답변

다음 작업 중 PySpark action은 무엇입니까?

PySpark에서 Parquet 파일로부터 DataFrame을 만들려면 어떻게 해야 합니까?

기타 Data Engineering 면접 주제

Linux & Shell - 기초

Git & GitHub - 기초

데이터 엔지니어링을 위한 고급 Python

Docker - 기초

Google Cloud Platform - 기초

CI/CD 및 코드 품질

Docker Compose

FastAPI - 데이터 API

Data Engineering을 위한 고급 SQL

Data Lake - 아키텍처 및 수집

데이터 엔지니어링을 위한 BigQuery

PostgreSQL - 관리

Data Engineering을 위한 Data Modeling

Fivetran & Airbyte - 데이터 수집

dbt - 기초

Apache Airflow - 기초

Kubernetes - 기초

dbt - 고급 기능

ETL / ELT / ETLT 패턴

Apache Airflow - 고급

Airflow + dbt - 파이프라인 오케스트레이션

Google Pub/Sub - 데이터 스트리밍

Apache Beam & Dataflow

Kubernetes - 프로덕션 및 스케일링

Terraform - Infrastructure as Code

NoSQL 데이터베이스

모던 Data Architecture

모니터링 및 관찰 가능성

IAM 및 데이터 보안

다음 면접을 위해 Data Engineering을 마스터하세요