
PySpark - 대규모 처리
SparkSession, RDD vs DataFrame, transformations, actions, partitioning, broadcast variables, UDFs, Spark SQL, caching
20 면접 질문·
Senior
1PySpark 애플리케이션을 만들기 위한 주요 진입점은 무엇입니까?
1
PySpark 애플리케이션을 만들기 위한 주요 진입점은 무엇입니까?
답변
SparkSession은 Spark 2.0에서 도입된 통합 진입점입니다. 기존의 SparkContext, SQLContext, HiveContext를 단일 객체로 대체합니다. SparkSession을 통해 DataFrame 생성, SQL 쿼리 실행, Spark 애플리케이션을 중앙 집중식으로 구성할 수 있습니다.
2PySpark에서 RDD와 DataFrame의 근본적인 차이점은 무엇입니까?
2
PySpark에서 RDD와 DataFrame의 근본적인 차이점은 무엇입니까?
답변
DataFrame은 이름과 타입이 지정된 컬럼을 가진 구조화된 스키마를 가지고 있어 Spark가 Catalyst를 통해 쿼리를 최적화할 수 있습니다. RDD는 구조화되지 않은 분산 컬렉션으로, Spark가 내부 데이터 구조를 알지 못하므로 최적화가 제한됩니다.
3PySpark에서 transformation과 action의 차이점은 무엇입니까?
3
PySpark에서 transformation과 action의 차이점은 무엇입니까?
답변
transformation은 지연 평가되며 계산을 트리거하지 않고 실행 계획을 구축합니다. action은 클러스터에서 계획의 실제 실행을 트리거하고 driver에 결과를 반환합니다. 이러한 구분 덕분에 Spark는 실행 전에 계획을 최적화할 수 있습니다.
4
다음 작업 중 PySpark action은 무엇입니까?
5
PySpark에서 Parquet 파일로부터 DataFrame을 만들려면 어떻게 해야 합니까?
+17 면접 질문
기타 Data Engineering 면접 주제
Linux & Shell - 기초
Junior
20개 질문Git & GitHub - 기초
Junior
20개 질문데이터 엔지니어링을 위한 고급 Python
Junior
25개 질문Docker - 기초
Junior
25개 질문Google Cloud Platform - 기초
Junior
20개 질문CI/CD 및 코드 품질
Mid-Level
20개 질문Docker Compose
Mid-Level
20개 질문FastAPI - 데이터 API
Mid-Level
20개 질문Data Engineering을 위한 고급 SQL
Mid-Level
20개 질문Data Lake - 아키텍처 및 수집
Mid-Level
20개 질문데이터 엔지니어링을 위한 BigQuery
Mid-Level
20개 질문PostgreSQL - 관리
Mid-Level
20개 질문Data Engineering을 위한 Data Modeling
Mid-Level
20개 질문Fivetran & Airbyte - 데이터 수집
Mid-Level
20개 질문dbt - 기초
Mid-Level
20개 질문Apache Airflow - 기초
Mid-Level
20개 질문Kubernetes - 기초
Mid-Level
20개 질문dbt - 고급 기능
Senior
20개 질문ETL / ELT / ETLT 패턴
Senior
20개 질문Apache Airflow - 고급
Senior
20개 질문Airflow + dbt - 파이프라인 오케스트레이션
Senior
20개 질문Google Pub/Sub - 데이터 스트리밍
Senior
20개 질문Apache Beam & Dataflow
Senior
20개 질문Kubernetes - 프로덕션 및 스케일링
Senior
20개 질문Terraform - Infrastructure as Code
Senior
20개 질문NoSQL 데이터베이스
Senior
20개 질문모던 Data Architecture
Senior
20개 질문모니터링 및 관찰 가능성
Senior
20개 질문IAM 및 데이터 보안
Senior
20개 질문