Question 1

データパイプラインの文脈における構造化ロギングとは何ですか？

Accepted Answer

構造化ロギングとは、フリーテキストではなく、パース可能な形式（JSON、key-value）でログを出力することです。これにより、Cloud Logging、Elasticsearch、Datadogなどのツールでログを簡単にフィルタリング、検索、集約できます。データパイプラインでは、DAG、task_id、run_id、その他のビジネスコンテキストでフィルタリングできるため、デバッグが大幅に容易になります。

Question 2

SLI（Service Level Indicator）とSLO（Service Level Objective）の違いは何ですか？

Accepted Answer

SLIは、サービス品質の側面（ジョブ成功率、パイプラインのレイテンシなど）を定量化する測定可能なメトリクスです。SLOはそのメトリクスに対して定義された目標値（例：ジョブの99.5%が成功する必要がある）です。SLAは内部SLOに基づく顧客への契約上のコミットメントです。この階層により、信頼性を客観的にモニタリングし、SLA違反前にアラートをトリガーできます。

Question 3

Great ExpectationsにおけるExpectationとは何ですか？

Accepted Answer

Expectationは、expect_column_values_to_not_be_nullやexpect_column_values_to_be_betweenのような、データに関する宣言的アサーションです。Great Expectationsは自動的にドキュメントと実行可能な検証結果を生成します。これらのExpectationはSuiteにグループ化され、データセットの完全な品質契約を定義します。

モニタリングとオブザーバビリティ

データパイプラインの文脈における構造化ロギングとは何ですか？

回答

SLI（Service Level Indicator）とSLO（Service Level Objective）の違いは何ですか？

回答

Great ExpectationsにおけるExpectationとは何ですか？

回答

データパイプラインにおけるSodaの主な役割は何ですか？

データインシデント管理の文脈における、runbookとは何ですか？

その他のData Engineering面接トピック

Linux & Shell - 基礎

Git & GitHub - 基礎

データエンジニアリングのための高度なPython

Docker - 基礎

Google Cloud Platform - 基礎

CI/CDとコード品質

Docker Compose

FastAPI - データAPI

Data Engineering向けの高度なSQL

Data Lake - アーキテクチャと取り込み

データエンジニアリングのためのBigQuery

PostgreSQL - 管理

Data EngineeringのためのData Modeling

Fivetran & Airbyte - データ取り込み

dbt - 基礎

Apache Airflow - 基礎

Kubernetes - 基礎

dbt - 高度な機能

ETL / ELT / ETLT パターン

Apache Airflow - 上級

Airflow + dbt - パイプラインオーケストレーション

PySpark - 大規模処理

Google Pub/Sub - データストリーミング

Apache Beam & Dataflow

Kubernetes - 本番環境とスケーリング

Terraform - Infrastructure as Code

NoSQLデータベース

モダンなData Architecture

IAMとデータセキュリティ

次の面接に向けてData Engineeringをマスター