Data Engineering

PySpark - 대규모 처리

SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching

20 면접 질문·
Senior
1

PySpark 애플리케이션을 만들기 위한 주요 진입점은 무엇입니까?

답변

SparkSession은 Spark 2.0에서 도입된 통합 진입점입니다. 기존의 SparkContext, SQLContext, HiveContext를 단일 객체로 대체합니다. SparkSession을 통해 DataFrame 생성, SQL 쿼리 실행, Spark 애플리케이션을 중앙 집중식으로 구성할 수 있습니다.

2

PySpark에서 RDD와 DataFrame의 근본적인 차이점은 무엇입니까?

답변

DataFrame은 이름과 타입이 지정된 컬럼을 가진 구조화된 스키마를 가지고 있어 Spark가 Catalyst를 통해 쿼리를 최적화할 수 있습니다. RDD는 구조화되지 않은 분산 컬렉션으로, Spark가 내부 데이터 구조를 알지 못하므로 최적화가 제한됩니다.

3

PySpark에서 transformation과 action의 차이점은 무엇입니까?

답변

transformation은 지연 평가되며 계산을 트리거하지 않고 실행 계획을 구축합니다. action은 클러스터에서 계획의 실제 실행을 트리거하고 driver에 결과를 반환합니다. 이러한 구분 덕분에 Spark는 실행 전에 계획을 최적화할 수 있습니다.

4

다음 작업 중 PySpark action은 무엇입니까?

5

PySpark에서 Parquet 파일로부터 DataFrame을 만들려면 어떻게 해야 합니까?

+17 면접 질문

다음 면접을 위해 Data Engineering을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기