Data Engineering

Data Lake - アーキテクチャと取り込み

Data Lakeアーキテクチャ、ゾーン(raw/refined/curated)、フォーマット(Parquet、Avro、JSON)、取り込み、パーティショニング

20 面接問題·
Mid-Level
1

Data Lakeとは何ですか?

回答

Data Lakeは、構造化、半構造化、非構造化を問わず、生データをネイティブ形式で保存できる集中型ストレージシステムです。書き込み時にスキーマを強制するData Warehouse(schema-on-write)とは異なり、Data Lakeは読み取り時にスキーマを適用(schema-on-read)し、データ探索と分析に最大限の柔軟性を提供します。

2

schema-on-writeとschema-on-readの主な違いは何ですか?

回答

schema-on-writeはストレージ前にデータ検証と変換を強制し、一貫した構造を保証しますが、柔軟性を制限します。schema-on-readはデータを生の形式で保存し、読み取り時のみスキーマを適用するため、最大限の取り込み柔軟性を提供しますが、データアクセス時に処理が必要です。

3

Data Lakeの3つの古典的なゾーンは何ですか?

回答

標準的なData Lakeアーキテクチャは3つのゾーンで構成されています:変換されていない生データ用のRaw(Bronze)、クリーニングおよび正規化されたデータ用のRefined(Silver)、消費可能な集約データ用のCurated(Gold)。このレイヤード構成により、ガバナンス、トレーサビリティ、データ品質が容易になります。

4

Data LakeにおけるRaw(Bronze)ゾーンの役割は何ですか?

5

Data Lakeで大量の分析データを保存するのに最適なファイル形式はどれですか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める