
Data Lake - 아키텍처 및 수집
Data Lake 아키텍처, 영역(raw/refined/curated), 형식(Parquet, Avro, JSON), 수집, 파티셔닝
20 면접 질문·
Mid-Level
1Data Lake란 무엇입니까?
1
Data Lake란 무엇입니까?
답변
Data Lake는 구조화, 반구조화, 비구조화 데이터를 원본 형식으로 저장할 수 있는 중앙 집중식 스토리지 시스템입니다. 쓰기 시 스키마를 강제하는 Data Warehouse(schema-on-write)와 달리, Data Lake는 읽기 시 스키마를 적용(schema-on-read)하여 데이터 탐색 및 분석에 최대한의 유연성을 제공합니다.
2schema-on-write와 schema-on-read의 주요 차이점은 무엇입니까?
2
schema-on-write와 schema-on-read의 주요 차이점은 무엇입니까?
답변
schema-on-write는 저장 전에 데이터 검증과 변환을 강제하여 일관된 구조를 보장하지만 유연성을 제한합니다. schema-on-read는 데이터를 원본 형식으로 저장하고 읽기 시에만 스키마를 적용하여 최대한의 수집 유연성을 제공하지만, 데이터 액세스 시 처리가 필요합니다.
3Data Lake의 세 가지 고전적인 영역은 무엇입니까?
3
Data Lake의 세 가지 고전적인 영역은 무엇입니까?
답변
표준 Data Lake 아키텍처는 세 가지 영역으로 구성됩니다: 변환되지 않은 원시 데이터를 위한 Raw(Bronze), 정리되고 정규화된 데이터를 위한 Refined(Silver), 그리고 소비 준비된 집계 데이터를 위한 Curated(Gold). 이 계층적 구성은 거버넌스, 추적성 및 데이터 품질을 용이하게 합니다.
4
Data Lake에서 Raw(Bronze) 영역의 역할은 무엇입니까?
5
Data Lake에서 대용량 분석 데이터를 저장하는 데 가장 적합한 파일 형식은 무엇입니까?
+17 면접 질문
기타 Data Engineering 면접 주제
Linux & Shell - 기초
Junior
20개 질문Git & GitHub - 기초
Junior
20개 질문데이터 엔지니어링을 위한 고급 Python
Junior
25개 질문Docker - 기초
Junior
25개 질문Google Cloud Platform - 기초
Junior
20개 질문CI/CD 및 코드 품질
Mid-Level
20개 질문Docker Compose
Mid-Level
20개 질문FastAPI - 데이터 API
Mid-Level
20개 질문Data Engineering을 위한 고급 SQL
Mid-Level
20개 질문데이터 엔지니어링을 위한 BigQuery
Mid-Level
20개 질문PostgreSQL - 관리
Mid-Level
20개 질문Data Engineering을 위한 Data Modeling
Mid-Level
20개 질문Fivetran & Airbyte - 데이터 수집
Mid-Level
20개 질문dbt - 기초
Mid-Level
20개 질문Apache Airflow - 기초
Mid-Level
20개 질문Kubernetes - 기초
Mid-Level
20개 질문dbt - 고급 기능
Senior
20개 질문ETL / ELT / ETLT 패턴
Senior
20개 질문Apache Airflow - 고급
Senior
20개 질문Airflow + dbt - 파이프라인 오케스트레이션
Senior
20개 질문PySpark - 대규모 처리
Senior
20개 질문Google Pub/Sub - 데이터 스트리밍
Senior
20개 질문Apache Beam & Dataflow
Senior
20개 질문Kubernetes - 프로덕션 및 스케일링
Senior
20개 질문Terraform - Infrastructure as Code
Senior
20개 질문NoSQL 데이터베이스
Senior
20개 질문모던 Data Architecture
Senior
20개 질문모니터링 및 관찰 가능성
Senior
20개 질문IAM 및 데이터 보안
Senior
20개 질문