Question 1

Data Lakeとは何ですか？

Accepted Answer

Data Lakeは、構造化、半構造化、非構造化を問わず、生データをネイティブ形式で保存できる集中型ストレージシステムです。書き込み時にスキーマを強制するData Warehouse（schema-on-write）とは異なり、Data Lakeは読み取り時にスキーマを適用（schema-on-read）し、データ探索と分析に最大限の柔軟性を提供します。

Question 2

schema-on-writeとschema-on-readの主な違いは何ですか？

Accepted Answer

schema-on-writeはストレージ前にデータ検証と変換を強制し、一貫した構造を保証しますが、柔軟性を制限します。schema-on-readはデータを生の形式で保存し、読み取り時のみスキーマを適用するため、最大限の取り込み柔軟性を提供しますが、データアクセス時に処理が必要です。

Question 3

Data Lakeの3つの古典的なゾーンは何ですか？

Accepted Answer

標準的なData Lakeアーキテクチャは3つのゾーンで構成されています：変換されていない生データ用のRaw（Bronze）、クリーニングおよび正規化されたデータ用のRefined（Silver）、消費可能な集約データ用のCurated（Gold）。このレイヤード構成により、ガバナンス、トレーサビリティ、データ品質が容易になります。

Data Lake - アーキテクチャと取り込み

Data Lakeとは何ですか？

回答

schema-on-writeとschema-on-readの主な違いは何ですか？

回答

Data Lakeの3つの古典的なゾーンは何ですか？

回答

Data LakeにおけるRaw（Bronze）ゾーンの役割は何ですか？

Data Lakeで大量の分析データを保存するのに最適なファイル形式はどれですか？

その他のData Engineering面接トピック

Linux & Shell - 基礎

Git & GitHub - 基礎

データエンジニアリングのための高度なPython

Docker - 基礎

Google Cloud Platform - 基礎

CI/CDとコード品質

Docker Compose

FastAPI - データAPI

Data Engineering向けの高度なSQL

データエンジニアリングのためのBigQuery

PostgreSQL - 管理

Data EngineeringのためのData Modeling

Fivetran & Airbyte - データ取り込み

dbt - 基礎

Apache Airflow - 基礎

Kubernetes - 基礎

dbt - 高度な機能

ETL / ELT / ETLT パターン

Apache Airflow - 上級

Airflow + dbt - パイプラインオーケストレーション

PySpark - 大規模処理

Google Pub/Sub - データストリーミング

Apache Beam & Dataflow

Kubernetes - 本番環境とスケーリング

Terraform - Infrastructure as Code

NoSQLデータベース

モダンなData Architecture

モニタリングとオブザーバビリティ

IAMとデータセキュリティ

次の面接に向けてData Engineeringをマスター