Question 1

Data Lake란 무엇입니까?

Accepted Answer

Data Lake는 구조화, 반구조화, 비구조화 데이터를 원본 형식으로 저장할 수 있는 중앙 집중식 스토리지 시스템입니다. 쓰기 시 스키마를 강제하는 Data Warehouse(schema-on-write)와 달리, Data Lake는 읽기 시 스키마를 적용(schema-on-read)하여 데이터 탐색 및 분석에 최대한의 유연성을 제공합니다.

Question 2

schema-on-write와 schema-on-read의 주요 차이점은 무엇입니까?

Accepted Answer

schema-on-write는 저장 전에 데이터 검증과 변환을 강제하여 일관된 구조를 보장하지만 유연성을 제한합니다. schema-on-read는 데이터를 원본 형식으로 저장하고 읽기 시에만 스키마를 적용하여 최대한의 수집 유연성을 제공하지만, 데이터 액세스 시 처리가 필요합니다.

Question 3

Data Lake의 세 가지 고전적인 영역은 무엇입니까?

Accepted Answer

표준 Data Lake 아키텍처는 세 가지 영역으로 구성됩니다: 변환되지 않은 원시 데이터를 위한 Raw(Bronze), 정리되고 정규화된 데이터를 위한 Refined(Silver), 그리고 소비 준비된 집계 데이터를 위한 Curated(Gold). 이 계층적 구성은 거버넌스, 추적성 및 데이터 품질을 용이하게 합니다.

Data Lake - 아키텍처 및 수집

Data Lake란 무엇입니까?

답변

schema-on-write와 schema-on-read의 주요 차이점은 무엇입니까?

답변

Data Lake의 세 가지 고전적인 영역은 무엇입니까?

답변

Data Lake에서 Raw(Bronze) 영역의 역할은 무엇입니까?

Data Lake에서 대용량 분석 데이터를 저장하는 데 가장 적합한 파일 형식은 무엇입니까?

기타 Data Engineering 면접 주제

Linux & Shell - 기초

Git & GitHub - 기초

데이터 엔지니어링을 위한 고급 Python

Docker - 기초

Google Cloud Platform - 기초

CI/CD 및 코드 품질

Docker Compose

FastAPI - 데이터 API

Data Engineering을 위한 고급 SQL

데이터 엔지니어링을 위한 BigQuery

PostgreSQL - 관리

Data Engineering을 위한 Data Modeling

Fivetran & Airbyte - 데이터 수집

dbt - 기초

Apache Airflow - 기초

Kubernetes - 기초

dbt - 고급 기능

ETL / ELT / ETLT 패턴

Apache Airflow - 고급

Airflow + dbt - 파이프라인 오케스트레이션

PySpark - 대규모 처리

Google Pub/Sub - 데이터 스트리밍

Apache Beam & Dataflow

Kubernetes - 프로덕션 및 스케일링

Terraform - Infrastructure as Code

NoSQL 데이터베이스

모던 Data Architecture

모니터링 및 관찰 가능성

IAM 및 데이터 보안

다음 면접을 위해 Data Engineering을 마스터하세요