Data Science & ML

Data Science & ML

DATA

Pythonを主要言語としたData Scienceと機械学習の包括的カリキュラムです。PandasとNumPyによるデータ操作から、TensorFlow/KerasによるDeep Learningモデルの実装、Scikit-Learnによるクラシック機械学習まで学びます。Docker、FastAPI、クラウドプラットフォームを使用したモデルの本番デプロイと保守のためのMLOpsスキルも含みます。

学べること

オブジェクト指向プログラミングとベストプラクティスを備えたモダンPython

Pandas、NumPy、SQL(BigQuery)によるデータ操作

Matplotlib、Seaborn、Plotlyによる可視化

Statsmodelによる記述統計と推測統計

Scikit-LearnとXGBoostによる機械学習(回帰、分類、クラスタリング)

TensorFlowとKerasによるDeep Learning(CNN、RNN、Transformers)

Hugging Face、LangChain、LLMs(GPT、Gemini)によるNLPとGenAI

MLflow、Docker、FastAPI、StreamlitによるMLOps

開発環境: Jupyter、Google Colab

Google Compute、Cloud Storage、GPUによるクラウドデプロイ

マスターすべき重要トピック

この技術を理解し面接で成功するための最も重要な概念

1

Python: 型、データ構造、OOP、デコレーター、ジェネレーター、コンテキストマネージャー

2

NumPy: 配列、broadcasting、indexing、ベクトル演算、線形代数

3

Pandas: DataFrames、Series、indexing、groupby、merge、pivot、時系列

4

SQL: SELECT、JOIN、GROUP BY、window functions、CTEs、クエリ最適化

5

可視化: Matplotlib(figures、axes、subplots)、Seaborn(統計プロット)、Plotly(インタラクティブ)

6

統計: 分布、仮説検定、信頼区間、回帰

7

特徴量エンジニアリング: エンコーディング、スケーリング、特徴量選択、特徴量作成

8

教師あり機械学習: 線形/ロジスティック回帰、決定木、Random Forest、XGBoost、メトリクス

9

教師なし機械学習: K-Means、階層的クラスタリング、PCA、t-SNE

10

機械学習パイプライン: train/test split、cross-validation、ハイパーパラメータチューニング、過学習

11

Deep Learning: パーセプトロン、誤差逆伝播、活性化関数、オプティマイザー、損失関数

12

CNN: 畳み込み、pooling、アーキテクチャ(ResNet、VGG)、転移学習

13

RNN/LSTM: シーケンス、勾配消失、アテンションメカニズム、Transformers

14

NLP: トークナイゼーション、embeddings、word2vec、BERT、LLMファインチューニング

15

MLOps: バージョニング(MLflow)、コンテナ化(Docker)、API(FastAPI)、モニタリング

16

Cloud: Google Cloud(Compute、Storage、BigQuery)、GPUトレーニング、Vertex AI

17

AI倫理: バイアス、説明可能性(SHAP、LIME)、公平性、GDPR