Question 1

BigQuery는 어떤 스토리지 아키텍처를 사용합니까?

Accepted Answer

BigQuery는 Capacitor라는 컬럼형 스토리지를 가진 서버리스 아키텍처를 사용합니다. 이 아키텍처는 스토리지와 컴퓨팅을 분리하여 독립적인 확장과 별도의 청구를 가능하게 합니다. 컬럼형 스토리지는 필요한 컬럼만 읽을 수 있어 I/O를 크게 줄이므로 분석 쿼리에 최적화되어 있습니다.

Question 2

BigQuery에서 테이블 파티셔닝의 주요 이점은 무엇입니까?

Accepted Answer

파티셔닝은 큰 테이블을 컬럼(보통 날짜)을 기반으로 작은 세그먼트로 나눕니다. 쿼리 중에 BigQuery는 관련 없는 파티션을 건너뛰어(partition pruning) 스캔되는 데이터 양을 줄일 수 있습니다. BigQuery는 처리된 데이터 볼륨에 따라 요금을 부과하므로 이는 성능을 향상시키고 비용을 줄입니다.

Question 3

BigQuery에서 사용 가능한 파티셔닝 유형은 무엇입니까?

Accepted Answer

BigQuery는 세 가지 파티셔닝 유형을 지원합니다: DATE 또는 TIMESTAMP 컬럼별(가장 일반적), 정수 범위별(INTEGER RANGE), 수집 시간별(_PARTITIONTIME). 날짜 필터에서 효율적인 partition pruning을 가능하게 하므로 시계열 데이터에는 날짜 파티셔닝이 권장됩니다.

데이터 엔지니어링을 위한 BigQuery

BigQuery는 어떤 스토리지 아키텍처를 사용합니까?

답변

BigQuery에서 테이블 파티셔닝의 주요 이점은 무엇입니까?

답변

BigQuery에서 사용 가능한 파티셔닝 유형은 무엇입니까?

답변

BigQuery에서 파티셔닝과 클러스터링의 차이점은 무엇입니까?

BigQuery에서 쿼리 비용을 최적화하는 방법은?

기타 Data Engineering 면접 주제

Linux & Shell - 기초

Git & GitHub - 기초

데이터 엔지니어링을 위한 고급 Python

Docker - 기초

Google Cloud Platform - 기초

CI/CD 및 코드 품질

Docker Compose

FastAPI - 데이터 API

Data Engineering을 위한 고급 SQL

Data Lake - 아키텍처 및 수집

PostgreSQL - 관리

Data Engineering을 위한 Data Modeling

Fivetran & Airbyte - 데이터 수집

dbt - 기초

Apache Airflow - 기초

Kubernetes - 기초

dbt - 고급 기능

ETL / ELT / ETLT 패턴

Apache Airflow - 고급

Airflow + dbt - 파이프라인 오케스트레이션

PySpark - 대규모 처리

Google Pub/Sub - 데이터 스트리밍

Apache Beam & Dataflow

Kubernetes - 프로덕션 및 스케일링

Terraform - Infrastructure as Code

NoSQL 데이터베이스

모던 Data Architecture

모니터링 및 관찰 가능성

IAM 및 데이터 보안

다음 면접을 위해 Data Engineering을 마스터하세요