
ETL / ELT / ETLT パターン
ETL vs ELT vs ETLT、batch vs micro-batch vs streaming、冪等性、エラーハンドリング、dead letter queue、データ品質、lineage
20 面接問題·
Senior
1ETLとELTの主な違いは何ですか?
1
ETLとELTの主な違いは何ですか?
回答
ETL(Extract-Transform-Load)では、データは宛先にロードされる前に中間サーバーで変換されます。ELT(Extract-Load-Transform)では、生データはまず宛先(通常はクラウドデータウェアハウス)にロードされ、その後その計算能力を使用して直接変換されます。ELTはBigQuery、Snowflake、Redshiftなどの弾力的な計算能力を提供するクラウドデータウェアハウスとともに普及しました。
2従来のETLと比較したELTアプローチの主な利点は何ですか?
2
従来のETLと比較したELTアプローチの主な利点は何ですか?
回答
ELTアプローチは、最新のクラウドデータウェアハウス(BigQuery、Snowflake、Redshift)の弾力的な計算能力を活用します。ボトルネックとなり得る別個の変換インフラを維持する代わりに、変換はデータウェアハウスのスケーリング機能を直接使用します。これにより運用の複雑さが軽減され、手動のリソースプロビジョニングなしではるかに大量のデータを処理できます。
3ETLTパターンとは何で、いつ関連性がありますか?
3
ETLTパターンとは何で、いつ関連性がありますか?
回答
ETLTは両方のアプローチを組み合わせます:抽出中に最初の軽い変換(クレンジング、フィルタリング、匿名化)が実行され、その後データがロードされ、データウェアハウスでより複雑な変換が適用されます。このパターンは、コンプライアンス上の理由(ロード前の機密データのマスキング)、ボリューム削減(早期フィルタリング)、または異種ソースフォーマットの正規化のために、特定の変換を上流で行う必要がある場合に有用です。
4
データパイプラインの文脈における冪等性とは何ですか?
5
テーブルにデータをロードする際に冪等性を実装するにはどうすればよいですか?
+17 面接問題
その他のData Engineering面接トピック
Linux & Shell - 基礎
Junior
20問Git & GitHub - 基礎
Junior
20問データエンジニアリングのための高度なPython
Junior
25問Docker - 基礎
Junior
25問Google Cloud Platform - 基礎
Junior
20問CI/CDとコード品質
Mid-Level
20問Docker Compose
Mid-Level
20問FastAPI - データAPI
Mid-Level
20問Data Engineering向けの高度なSQL
Mid-Level
20問Data Lake - アーキテクチャと取り込み
Mid-Level
20問データエンジニアリングのためのBigQuery
Mid-Level
20問PostgreSQL - 管理
Mid-Level
20問Data EngineeringのためのData Modeling
Mid-Level
20問Fivetran & Airbyte - データ取り込み
Mid-Level
20問dbt - 基礎
Mid-Level
20問Apache Airflow - 基礎
Mid-Level
20問Kubernetes - 基礎
Mid-Level
20問dbt - 高度な機能
Senior
20問Apache Airflow - 上級
Senior
20問Airflow + dbt - パイプラインオーケストレーション
Senior
20問PySpark - 大規模処理
Senior
20問Google Pub/Sub - データストリーミング
Senior
20問Apache Beam & Dataflow
Senior
20問Kubernetes - 本番環境とスケーリング
Senior
20問Terraform - Infrastructure as Code
Senior
20問NoSQLデータベース
Senior
20問モダンなData Architecture
Senior
20問モニタリングとオブザーバビリティ
Senior
20問IAMとデータセキュリティ
Senior
20問