Data Science & ML

Data Science & ML

DATA

Chương trình Data Science và Machine Learning toàn diện với Python là ngôn ngữ chính. Từ thao tác dữ liệu với Pandas và NumPy đến triển khai mô hình Deep Learning với TensorFlow/Keras, qua ML cổ điển với Scikit-Learn. Bao gồm cả kỹ năng MLOps để triển khai và duy trì mô hình trong production với Docker, FastAPI và nền tảng cloud.

Bạn sẽ học được gì

Python hiện đại với lập trình hướng đối tượng và best practice

Thao tác dữ liệu với Pandas, NumPy và SQL (BigQuery)

Trực quan hóa với Matplotlib, Seaborn và Plotly

Thống kê mô tả và suy luận với Statsmodel

Machine Learning với Scikit-Learn và XGBoost (hồi quy, phân loại, gom cụm)

Deep Learning với TensorFlow và Keras (CNN, RNN, Transformer)

NLP và GenAI với Hugging Face, LangChain và LLM (GPT, Gemini)

MLOps với MLflow, Docker, FastAPI và Streamlit

Môi trường phát triển: Jupyter, Google Colab

Triển khai cloud với Google Compute, Cloud Storage và GPU

Chủ đề chính cần nắm vững

Những khái niệm quan trọng nhất để hiểu công nghệ này và thành công trong phỏng vấn

1

Python: kiểu, cấu trúc dữ liệu, OOP, decorator, generator, context manager

2

NumPy: mảng, broadcasting, indexing, phép toán vector hóa, đại số tuyến tính

3

Pandas: DataFrame, Series, indexing, groupby, merge, pivot, chuỗi thời gian

4

SQL: SELECT, JOIN, GROUP BY, window function, CTE, tối ưu truy vấn

5

Trực quan hóa: Matplotlib (figure, axes, subplot), Seaborn (biểu đồ thống kê), Plotly (tương tác)

6

Thống kê: phân phối, kiểm định giả thuyết, khoảng tin cậy, hồi quy

7

Feature Engineering: mã hóa, chuẩn hóa, chọn đặc trưng, tạo đặc trưng

8

ML có giám sát: hồi quy tuyến tính/logistic, cây, Random Forest, XGBoost, chỉ số

9

ML không giám sát: K-Means, gom cụm phân cấp, PCA, t-SNE

10

ML Pipeline: chia train/test, cross-validation, điều chỉnh siêu tham số, overfitting

11

Deep Learning: perceptron, lan truyền ngược, hàm kích hoạt, optimizer, hàm mất mát

12

CNN: tích chập, pooling, kiến trúc (ResNet, VGG), transfer learning

13

RNN/LSTM: chuỗi, gradient biến mất, cơ chế attention, Transformer

14

NLP: tokenization, embedding, word2vec, BERT, fine-tuning LLM

15

MLOps: quản lý phiên bản (MLflow), container hóa (Docker), API (FastAPI), giám sát

16

Cloud: Google Cloud (Compute, Storage, BigQuery), huấn luyện GPU, Vertex AI

17

Đạo đức AI: thiên kiến, khả năng giải thích (SHAP, LIME), công bằng, GDPR