Data Engineering

Data Lake - 아키텍처 및 수집

Data Lake 아키텍처, 영역(raw/refined/curated), 형식(Parquet, Avro, JSON), 수집, 파티셔닝

20 면접 질문·
Mid-Level
1

Data Lake란 무엇입니까?

답변

Data Lake는 구조화, 반구조화, 비구조화 데이터를 원본 형식으로 저장할 수 있는 중앙 집중식 스토리지 시스템입니다. 쓰기 시 스키마를 강제하는 Data Warehouse(schema-on-write)와 달리, Data Lake는 읽기 시 스키마를 적용(schema-on-read)하여 데이터 탐색 및 분석에 최대한의 유연성을 제공합니다.

2

schema-on-write와 schema-on-read의 주요 차이점은 무엇입니까?

답변

schema-on-write는 저장 전에 데이터 검증과 변환을 강제하여 일관된 구조를 보장하지만 유연성을 제한합니다. schema-on-read는 데이터를 원본 형식으로 저장하고 읽기 시에만 스키마를 적용하여 최대한의 수집 유연성을 제공하지만, 데이터 액세스 시 처리가 필요합니다.

3

Data Lake의 세 가지 고전적인 영역은 무엇입니까?

답변

표준 Data Lake 아키텍처는 세 가지 영역으로 구성됩니다: 변환되지 않은 원시 데이터를 위한 Raw(Bronze), 정리되고 정규화된 데이터를 위한 Refined(Silver), 그리고 소비 준비된 집계 데이터를 위한 Curated(Gold). 이 계층적 구성은 거버넌스, 추적성 및 데이터 품질을 용이하게 합니다.

4

Data Lake에서 Raw(Bronze) 영역의 역할은 무엇입니까?

5

Data Lake에서 대용량 분석 데이터를 저장하는 데 가장 적합한 파일 형식은 무엇입니까?

+17 면접 질문

다음 면접을 위해 Data Engineering을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기