Data Engineering

Fivetran & Airbyte - データ取り込み

コネクタ、sync modes (full, incremental)、CDC、schema evolution、変換、モニタリング

20 面接問題·
Mid-Level
1

デプロイメントモデルの観点で、FivetranとAirbyteの主な違いは何ですか?

回答

Fivetranは、インフラストラクチャがFivetranによって管理される完全マネージドSaaSソリューションであり、一方でAirbyteはcloudオファリングに加えてopen-source self-hostedモデルを提供します。Airbyteは独自のインフラストラクチャ(Docker、Kubernetes)にソリューションをデプロイすることを可能にし、データとコストをより詳細に制御できる一方、Fivetranはすべてのメンテナンスを管理することで運用を簡素化します。

2

FivetranまたはAirbyteの文脈でのconnectorとは何ですか?

回答

Connectorは、特定のソース(データベース、API、SaaS)から宛先(data warehouse、data lake)へデータを抽出する事前設定されたコンポーネントです。各connectorは、特定のソースの認証、ページネーション、エラー処理、スキーマのマッピングを処理し、カスタム統合コードを記述する必要をなくします。

3

Full RefreshとIncrementalの同期の違いは何ですか?

回答

Full Refreshは同期のたびにソースからすべてのデータを抽出し、宛先の既存データを置き換えます。Incrementalは、カーソル(timestamp、自動インクリメントID)を使用して、前回の同期以降の新規データまたは変更のみを転送します。Incrementalは時間、コスト、ソースへの負荷の点でより効率的です。

4

CDC (Change Data Capture)とは何ですか、そしてなぜインジェスションツールで使用されますか?

5

CDCはtimestampベースの増分同期と比較してどのような主な利点を提供しますか?

+17 面接問題

次の面接に向けてData Engineeringをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める