Data Engineering

モダンなData Architecture

Data Lake vs Data Warehouse vs Lakehouse、Data Mesh、Data Contracts、schema registry、ADR、ガバナンス、data catalog、lineage

20 面接問題·
Senior
1

Data LakeとData Warehouseの根本的な違いは何ですか?

回答

Data Lakeはデータをネイティブ(raw)フォーマットで保存し、読み取り時にスキーマを適用(schema-on-read)するため、探索の柔軟性が高くなります。Data Warehouseは書き込み時に構造化されたスキーマを強制(schema-on-write)し、分析用に変換・最適化されたデータを保持します。Data Lakeは柔軟性と低コストの大規模ストレージを重視し、Data Warehouseはクエリパフォーマンスとデータ品質を重視します。

2

Lakehouseアーキテクチャの、Data LakeとData Warehouseを分離したアーキテクチャと比較した主な利点は何ですか?

回答

Lakehouseアーキテクチャは両者の長所を組み合わせます: Data Lakeの柔軟で経済的なストレージとData WarehouseのACID機能、クエリパフォーマンス、ガバナンスを統合します。これによりシステム間のデータ重複を排除し、同期コストと複雑さを削減しつつ、Delta Lake、Iceberg、Hudiなどのオープンフォーマットで同じプラットフォーム上でBIとMLのワークロードを実行できます。

3

Data Lake上でACIDトランザクションを可能にするオープンテーブルフォーマットはどれですか?

回答

Delta Lake、Apache Iceberg、Apache HudiはData Lake上でACIDトランザクションを可能にする3つの主要なオープンテーブルフォーマットです。Databricksが開発したDelta Lakeはtransaction logを使用してatomicityとconsistencyを保証します。Netflixが作成したIcebergは高度なパーティション管理とschema evolutionを提供します。Uberが開発したHudiはupsertとCDCシナリオで優れています。これらのフォーマットはシンプルなオブジェクトストレージをトランザクション保証付きのLakehouseに変換します。

4

Data Meshの基本原則は何ですか?

5

Data Meshの文脈におけるData Contractとは何ですか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める