Data Engineering

ETL / ELT / ETLT パターン

ETL vs ELT vs ETLT、batch vs micro-batch vs streaming、冪等性、エラーハンドリング、dead letter queue、データ品質、lineage

20 面接問題·
Senior
1

ETLとELTの主な違いは何ですか?

回答

ETL(Extract-Transform-Load)では、データは宛先にロードされる前に中間サーバーで変換されます。ELT(Extract-Load-Transform)では、生データはまず宛先(通常はクラウドデータウェアハウス)にロードされ、その後その計算能力を使用して直接変換されます。ELTはBigQuery、Snowflake、Redshiftなどの弾力的な計算能力を提供するクラウドデータウェアハウスとともに普及しました。

2

従来のETLと比較したELTアプローチの主な利点は何ですか?

回答

ELTアプローチは、最新のクラウドデータウェアハウス(BigQuery、Snowflake、Redshift)の弾力的な計算能力を活用します。ボトルネックとなり得る別個の変換インフラを維持する代わりに、変換はデータウェアハウスのスケーリング機能を直接使用します。これにより運用の複雑さが軽減され、手動のリソースプロビジョニングなしではるかに大量のデータを処理できます。

3

ETLTパターンとは何で、いつ関連性がありますか?

回答

ETLTは両方のアプローチを組み合わせます:抽出中に最初の軽い変換(クレンジング、フィルタリング、匿名化)が実行され、その後データがロードされ、データウェアハウスでより複雑な変換が適用されます。このパターンは、コンプライアンス上の理由(ロード前の機密データのマスキング)、ボリューム削減(早期フィルタリング)、または異種ソースフォーマットの正規化のために、特定の変換を上流で行う必要がある場合に有用です。

4

データパイプラインの文脈における冪等性とは何ですか?

5

テーブルにデータをロードする際に冪等性を実装するにはどうすればよいですか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める