
ML Pipelines āđāļĨāļ°āļāļēāļĢāļāļĢāļ§āļāļŠāļāļ
Scikit-learn pipelines, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, āļāļēāļĢāđāļāđāļāļāļąāđāļ
1āļāđāļāđāļāđāđāļāļĢāļĩāļĒāļāļŦāļĨāļąāļāļāļāļāļāļēāļĢāđāļāđ Pipeline āļāļāļ scikit-learn āđāļāļāļāļēāļĢāđāļāđāļāļēāļĢāđāļāļĨāļāļāđāļ§āļĒāļāļāđāļāļāļāļ·āļāļāļ°āđāļĢ?
āļāđāļāđāļāđāđāļāļĢāļĩāļĒāļāļŦāļĨāļąāļāļāļāļāļāļēāļĢāđāļāđ Pipeline āļāļāļ scikit-learn āđāļāļāļāļēāļĢāđāļāđāļāļēāļĢāđāļāļĨāļāļāđāļ§āļĒāļāļāđāļāļāļāļ·āļāļāļ°āđāļĢ?
āļāļģāļāļāļ
Pipeline āļĢāļąāļāļāļĢāļ°āļāļąāļāļ§āđāļēāļāļēāļĢāđāļāļĨāļāđāļāļĩāļĒāļ§āļāļąāļāļāļ°āļāļđāļāļāļģāđāļāđāļāđāļāļĒāđāļēāļāļŠāļĄāđāļģāđāļŠāļĄāļāļāļąāļāļāļąāđāļāļāđāļāļĄāļđāļĨ training āđāļĨāļ° test āļĄāļąāļāļĢāļ§āļĄāļāļąāđāļāļāļāļ preprocessing āđāļĨāļ° modeling āļāļąāđāļāļŦāļĄāļāđāļ§āđāđāļāļāļāļāđāļāđāļāļāđāđāļāļĩāļĒāļ§ āļāļķāđāļāļāļģāđāļŦāđāđāļāđāļāļāđāļēāļĒāļāļķāđāļ āļāđāļāļāļāļąāļ data leakage āđāļĨāļ°āļāļģāđāļŦāđāļāļēāļĢ deploy model āđāļāļĒāļąāļ production āļāđāļēāļĒāļāļķāđāļ
2āļāļ§āļĢāđāļĢāļĩāļĒāļ method āđāļāļāļ Pipeline āđāļāļ·āđāļ train āļāļļāļāļāļąāđāļāļāļāļāđāļĨāļ°āļāļģāļāļēāļĢāļāļģāļāļēāļĒ?
āļāļ§āļĢāđāļĢāļĩāļĒāļ method āđāļāļāļ Pipeline āđāļāļ·āđāļ train āļāļļāļāļāļąāđāļāļāļāļāđāļĨāļ°āļāļģāļāļēāļĢāļāļģāļāļēāļĒ?
āļāļģāļāļāļ
method fit_predict āđāļĄāđāļĄāļĩāļāļĒāļđāđāđāļ Pipeline āļŠāļģāļŦāļĢāļąāļ regression āļŦāļĢāļ·āļ classification āļāļļāļāļāđāļāļāđāļĢāļĩāļĒāļ fit() āļāđāļāļāđāļāļ·āđāļ train pipeline āļāļēāļāļāļąāđāļāđāļĢāļĩāļĒāļ predict() āđāļāļ·āđāļāļĢāļąāļāļāļēāļĢāļāļģāļāļēāļĒ āļŦāļĢāļ·āļāļāļĩāļāļāļēāļāļŦāļāļķāđāļ āļŠāļēāļĄāļēāļĢāļāđāļĢāļĩāļĒāļ fit() āļāļēāļĄāļāđāļ§āļĒ predict() āđāļĒāļāļāļąāļāđāļāļ·āđāļāļāļēāļĢāļāļ§āļāļāļļāļĄāļāļĩāđāļĄāļēāļāļāļķāđāļ
3Data leakage āđāļāļāļĢāļīāļāļāļāļāļ machine learning āļāļ·āļāļāļ°āđāļĢ?
Data leakage āđāļāļāļĢāļīāļāļāļāļāļ machine learning āļāļ·āļāļāļ°āđāļĢ?
āļāļģāļāļāļ
Data leakage āđāļāļīāļāļāļķāđāļāđāļĄāļ·āđāļāļāđāļāļĄāļđāļĨāļāļēāļ test set āļŦāļĢāļ·āļāļāđāļāļĄāļđāļĨāđāļāļāļāļēāļāļāļāļđāļāđāļāđāđāļāļĒāđāļĄāđāļāļąāđāļāđāļāļĢāļ°āļŦāļ§āđāļēāļāļāļēāļĢ training āļŠāļīāđāļāļāļĩāđāļŠāļēāļĄāļēāļĢāļāđāļāļīāļāļāļķāđāļāļĢāļ°āļŦāļ§āđāļēāļ preprocessing (āļāļēāļĢāļāļģāļāļ§āļāļāđāļēāđāļāļĨāļĩāđāļĒāļāļēāļāļāļąāđāļ dataset āļāđāļāļāļāļēāļĢ split) āļŦāļĢāļ·āļāļāđāļēāļ feature āļāļĩāđāļĄāļĩ target āļāļēāļāļāđāļāļĄ āļāļĨāļĨāļąāļāļāđāļāļ·āļāļāļĢāļ°āļŠāļīāļāļāļīāļ āļēāļāļŠāļđāļāđāļāļĩāļĒāļĄāļāļĩāđāđāļĄāđāļŠāļēāļĄāļēāļĢāļ generalize āđāļāđ
āļāļāļāļēāļāļāļāļ ColumnTransformer āđāļ scikit-learn āļāļ·āļāļāļ°āđāļĢ?
K-Fold cross-validation āļāļ·āļāļāļ°āđāļĢ?
+19 āļāļģāļāļēāļĄāļŠāļąāļĄāļ āļēāļĐāļāđ
āļŦāļąāļ§āļāđāļāļŠāļąāļĄāļ āļēāļĐāļāđ Data Science & ML āļāļ·āđāļāđ
āļāļ·āđāļāļāļēāļ Python
āļāļēāļĢāđāļāļĩāļĒāļāđāļāļĢāđāļāļĢāļĄāđāļāļīāļāļ§āļąāļāļāļļāļāđāļ§āļĒ Python
āđāļāļĢāļāļŠāļĢāđāļēāļāļāđāļāļĄāļđāļĨ Python
āļāļ·āđāļāļāļēāļ Git
āļāļ·āđāļāļāļēāļ SQL
āļāļ·āđāļāļāļēāļ NumPy
āļāļ·āđāļāļāļēāļ Pandas
Jupyter & Google Colab
SQL Joins āđāļĨāļ°āļāļīāļ§āļĢāļĩāļāļąāđāļāļŠāļđāļ
Pandas āļāļąāđāļāļŠāļđāļ
āļāļēāļĢāđāļŠāļāļāļāļĨāļāđāļāļĄāļđāļĨāļāđāļ§āļĒ Matplotlib & Seaborn
āļāļēāļĢāđāļŠāļāļāļāļĨāđāļāļāđāļāđāļāļāļāļāđāļ§āļĒ Plotly
āļŠāļāļīāļāļīāđāļāļīāļāļāļĢāļĢāļāļāļē
āļŠāļāļīāļāļīāđāļāļīāļāļāļāļļāļĄāļēāļ
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML āđāļāļāļĄāļĩāļāļđāđāļŠāļāļ: āļāļēāļĢāļāļāļāļāļĒ
ML āđāļāļāļĄāļĩāļāļđāđāļŠāļāļ: āļāļēāļĢāļāļģāđāļāļāļāļĢāļ°āđāļ āļ
Decision Trees āđāļĨāļ° Ensembles
Unsupervised ML
Time Series āđāļĨāļ°āļāļēāļĢāļāļĒāļēāļāļĢāļāđ
āļāļ·āđāļāļāļēāļ Deep Learning
TensorFlow & Keras
CNN āđāļĨāļ°āļāļēāļĢāļāļģāđāļāļāļ āļēāļ
RNN āđāļĨāļ°āļāļĩāđāļāļ§āļāļāđ
Transformers āđāļĨāļ° Attention
NLP āđāļĨāļ° Hugging Face
GenAI āđāļĨāļ° LangChain
MLOps āđāļĨāļ°āļāļēāļĢ Deploy
āđāļāļĩāđāļĒāļ§āļāļēāļ Data Science & ML āļŠāļģāļŦāļĢāļąāļāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļāđāļāļĢāļąāđāļāļāļąāļāđāļ
āđāļāđāļēāļāļķāļāļāļģāļāļēāļĄāļāļąāđāļāļŦāļĄāļ flashcards āđāļāļāļāļāļŠāļāļāđāļāļāļāļīāļ āđāļāļāļāļķāļāļŦāļąāļ code review āđāļĨāļ°āļāļąāļ§āļāļģāļĨāļāļāļŠāļąāļĄāļ āļēāļĐāļāđ
āđāļĢāļīāđāļĄāđāļāđāļāļĢāļĩ