
モダンなData Architecture
Data Lake vs Data Warehouse vs Lakehouse、Data Mesh、Data Contracts、schema registry、ADR、ガバナンス、data catalog、lineage
1Data LakeとData Warehouseの根本的な違いは何ですか?
Data LakeとData Warehouseの根本的な違いは何ですか?
回答
Data Lakeはデータをネイティブ(raw)フォーマットで保存し、読み取り時にスキーマを適用(schema-on-read)するため、探索の柔軟性が高くなります。Data Warehouseは書き込み時に構造化されたスキーマを強制(schema-on-write)し、分析用に変換・最適化されたデータを保持します。Data Lakeは柔軟性と低コストの大規模ストレージを重視し、Data Warehouseはクエリパフォーマンスとデータ品質を重視します。
2Lakehouseアーキテクチャの、Data LakeとData Warehouseを分離したアーキテクチャと比較した主な利点は何ですか?
Lakehouseアーキテクチャの、Data LakeとData Warehouseを分離したアーキテクチャと比較した主な利点は何ですか?
回答
Lakehouseアーキテクチャは両者の長所を組み合わせます: Data Lakeの柔軟で経済的なストレージとData WarehouseのACID機能、クエリパフォーマンス、ガバナンスを統合します。これによりシステム間のデータ重複を排除し、同期コストと複雑さを削減しつつ、Delta Lake、Iceberg、Hudiなどのオープンフォーマットで同じプラットフォーム上でBIとMLのワークロードを実行できます。
3Data Lake上でACIDトランザクションを可能にするオープンテーブルフォーマットはどれですか?
Data Lake上でACIDトランザクションを可能にするオープンテーブルフォーマットはどれですか?
回答
Delta Lake、Apache Iceberg、Apache HudiはData Lake上でACIDトランザクションを可能にする3つの主要なオープンテーブルフォーマットです。Databricksが開発したDelta Lakeはtransaction logを使用してatomicityとconsistencyを保証します。Netflixが作成したIcebergは高度なパーティション管理とschema evolutionを提供します。Uberが開発したHudiはupsertとCDCシナリオで優れています。これらのフォーマットはシンプルなオブジェクトストレージをトランザクション保証付きのLakehouseに変換します。
Data Meshの基本原則は何ですか?
Data Meshの文脈におけるData Contractとは何ですか?
+17 面接問題