Data Engineering

Data Engineering

DATA

データ生産チェーン全体をカバーする包括的なData Engineeringカリキュラムです。DockerとGCPによる環境構築から、Airflowとdbtによるパイプラインオーケストレーション、BigQueryとPostgreSQLによるData Warehouse構築まで学びます。PySpark、Pub/Sub、Apache Beamによるデータストリーミング、KubernetesとTerraformによる本番デプロイを習得します。CI/CD、モニタリング、モダンデータアーキテクチャのベストプラクティスをマスターします。

学べること

開発環境: Linux、Git、GitHub、VS Code、高度なPython

CI/CDとコード品質: Ruff、Pylint、Poetry、GitHub Actions

DockerとDocker Composeによるコンテナ化

FastAPIによるAPI: 設計、デプロイ、ドキュメント

Data Lake: インジェスション、ストレージ、生データの整理

BigQueryによるData Warehouse: スキーマ、パーティショニング、最適化

PostgreSQL: 設定、管理、マネージドソリューションとの比較

FivetranとAirbyteによるデータインジェスション

dbtによる変換: models、tests、ドキュメント、モジュラリティ

Apache Airflowによるオーケストレーション: DAGs、スケジューリング、モニタリング

PySparkによるBig Data: 大規模変換

データストリーミング: Google Pub/Sub、Apache Beam、Dataflow

Kubernetes: コンテナデプロイ、スケーリング、本番クラスター

TerraformによるInfrastructure as Code

高度なデータベース: GraphDB、Document DBs、Wide Column DBs

ロギング、モニタリング、パイプラインの可観測性

マスターすべき重要トピック

この技術を理解し面接で成功するための最も重要な概念

1

LinuxとShell: 必須コマンド、bashスクリプト、パーミッション、cron jobs

2

GitとGitHub: branching、merge、rebase、pull requests、CI/CDワークフロー

3

高度なPython: OOP、デコレーター、ジェネレーター、コンテキストマネージャー、typing、async/await

4

CI/CD: linting(Ruff、Pylint)、packaging(Poetry)、tests、GitHub Actions、pipelines

5

Docker: Dockerfile、イメージ、コンテナ、volumes、networks、multi-stage builds

6

Docker Compose: マルチコンテナサービス、依存関係、healthchecks、ローカルオーケストレーション

7

FastAPI: ルート、Pydanticモデル、依存関係、middleware、デプロイ

8

高度なSQL: window functions、CTEs、分析クエリ、最適化、インデックス

9

BigQuery: サーバーレスアーキテクチャ、パーティショニング、クラスタリング、コスト、UDFs、federated queries

10

PostgreSQL: 設定、レプリケーション、インデックス(B-tree、GIN、GiST)、VACUUM、EXPLAIN ANALYZE

11

データモデリング: スタースキーマ、ファクト/ディメンションテーブル、正規化、SCD、data vault

12

ELT vs ETL vs ETLT: パターン、トレードオフ、アーキテクチャ選択

13

FivetranとAirbyte: コネクター、同期モード、CDC、スキーマエボリューション

14

dbt: models、sources、refs、tests、snapshots、incremental models、Jinja macros

15

Apache Airflow: DAGs、operators、sensors、XCom、connections、pools、タスク依存関係

16

PySpark: RDD vs DataFrame、変換、アクション、パーティショニング、broadcast variables

17

ストリーミング: Pub/Sub(topics、subscriptions)、Apache Beam(PCollections、transforms、windowing)、Dataflow

18

Kubernetes: pods、deployments、services、ingress、ConfigMaps、Secrets、Helm、scaling

19

Terraform: providers、resources、state、modules、plan/apply、infrastructure as code

20

IAMとセキュリティ: 最小権限の原則、service accounts、GCPロール

21

NoSQLデータベース: GraphDB(Neo4j)、Document DBs(MongoDB、Firestore)、Wide Column(Cassandra、Bigtable)

22

データアーキテクチャ: Data Lake vs Data Warehouse vs Data Lakehouse、Data Mesh、Data Contracts

23

モニタリングと可観測性: ロギング、メトリクス、アラート、SLA/SLO/SLI、データ品質チェック