
Data Lake - アーキテクチャと取り込み
Data Lakeアーキテクチャ、ゾーン(raw/refined/curated)、フォーマット(Parquet、Avro、JSON)、取り込み、パーティショニング
20 面接問題·
Mid-Level
1Data Lakeとは何ですか?
1
Data Lakeとは何ですか?
回答
Data Lakeは、構造化、半構造化、非構造化を問わず、生データをネイティブ形式で保存できる集中型ストレージシステムです。書き込み時にスキーマを強制するData Warehouse(schema-on-write)とは異なり、Data Lakeは読み取り時にスキーマを適用(schema-on-read)し、データ探索と分析に最大限の柔軟性を提供します。
2schema-on-writeとschema-on-readの主な違いは何ですか?
2
schema-on-writeとschema-on-readの主な違いは何ですか?
回答
schema-on-writeはストレージ前にデータ検証と変換を強制し、一貫した構造を保証しますが、柔軟性を制限します。schema-on-readはデータを生の形式で保存し、読み取り時のみスキーマを適用するため、最大限の取り込み柔軟性を提供しますが、データアクセス時に処理が必要です。
3Data Lakeの3つの古典的なゾーンは何ですか?
3
Data Lakeの3つの古典的なゾーンは何ですか?
回答
標準的なData Lakeアーキテクチャは3つのゾーンで構成されています:変換されていない生データ用のRaw(Bronze)、クリーニングおよび正規化されたデータ用のRefined(Silver)、消費可能な集約データ用のCurated(Gold)。このレイヤード構成により、ガバナンス、トレーサビリティ、データ品質が容易になります。
4
Data LakeにおけるRaw(Bronze)ゾーンの役割は何ですか?
5
Data Lakeで大量の分析データを保存するのに最適なファイル形式はどれですか?
+17 面接問題
その他のData Engineering面接トピック
Linux & Shell - 基礎
Junior
20問Git & GitHub - 基礎
Junior
20問データエンジニアリングのための高度なPython
Junior
25問Docker - 基礎
Junior
25問Google Cloud Platform - 基礎
Junior
20問CI/CDとコード品質
Mid-Level
20問Docker Compose
Mid-Level
20問FastAPI - データAPI
Mid-Level
20問Data Engineering向けの高度なSQL
Mid-Level
20問データエンジニアリングのためのBigQuery
Mid-Level
20問PostgreSQL - 管理
Mid-Level
20問Data EngineeringのためのData Modeling
Mid-Level
20問Fivetran & Airbyte - データ取り込み
Mid-Level
20問dbt - 基礎
Mid-Level
20問Apache Airflow - 基礎
Mid-Level
20問Kubernetes - 基礎
Mid-Level
20問dbt - 高度な機能
Senior
20問ETL / ELT / ETLT パターン
Senior
20問Apache Airflow - 上級
Senior
20問Airflow + dbt - パイプラインオーケストレーション
Senior
20問PySpark - 大規模処理
Senior
20問Google Pub/Sub - データストリーミング
Senior
20問Apache Beam & Dataflow
Senior
20問Kubernetes - 本番環境とスケーリング
Senior
20問Terraform - Infrastructure as Code
Senior
20問NoSQLデータベース
Senior
20問モダンなData Architecture
Senior
20問モニタリングとオブザーバビリティ
Senior
20問IAMとデータセキュリティ
Senior
20問