Data Science & ML

ML Pipelines āđāļĨāļ°āļāļēāļĢāļ•āļĢāļ§āļˆāļŠāļ­āļš

Scikit-learn pipelines, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, āļāļēāļĢāđāļšāđˆāļ‡āļŠāļąāđ‰āļ™

22 āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒÂ·
Mid-Level
1

āļ‚āđ‰āļ­āđ„āļ”āđ‰āđ€āļ›āļĢāļĩāļĒāļšāļŦāļĨāļąāļāļ‚āļ­āļ‡āļāļēāļĢāđƒāļŠāđ‰ Pipeline āļ‚āļ­āļ‡ scikit-learn āđāļ—āļ™āļāļēāļĢāđƒāļŠāđ‰āļāļēāļĢāđāļ›āļĨāļ‡āļ”āđ‰āļ§āļĒāļ•āļ™āđ€āļ­āļ‡āļ„āļ·āļ­āļ­āļ°āđ„āļĢ?

āļ„āļģāļ•āļ­āļš

Pipeline āļĢāļąāļšāļ›āļĢāļ°āļāļąāļ™āļ§āđˆāļēāļāļēāļĢāđāļ›āļĨāļ‡āđ€āļ”āļĩāļĒāļ§āļāļąāļ™āļˆāļ°āļ–āļđāļāļ™āļģāđ„āļ›āđƒāļŠāđ‰āļ­āļĒāđˆāļēāļ‡āļŠāļĄāđˆāļģāđ€āļŠāļĄāļ­āļāļąāļšāļ—āļąāđ‰āļ‡āļ‚āđ‰āļ­āļĄāļđāļĨ training āđāļĨāļ° test āļĄāļąāļ™āļĢāļ§āļĄāļ‚āļąāđ‰āļ™āļ•āļ­āļ™ preprocessing āđāļĨāļ° modeling āļ—āļąāđ‰āļ‡āļŦāļĄāļ”āđ„āļ§āđ‰āđƒāļ™āļ­āļ­āļšāđ€āļˆāđ‡āļāļ•āđŒāđ€āļ”āļĩāļĒāļ§ āļ‹āļķāđˆāļ‡āļ—āļģāđƒāļŦāđ‰āđ‚āļ„āđ‰āļ”āļ‡āđˆāļēāļĒāļ‚āļķāđ‰āļ™ āļ›āđ‰āļ­āļ‡āļāļąāļ™ data leakage āđāļĨāļ°āļ—āļģāđƒāļŦāđ‰āļāļēāļĢ deploy model āđ„āļ›āļĒāļąāļ‡ production āļ‡āđˆāļēāļĒāļ‚āļķāđ‰āļ™

2

āļ„āļ§āļĢāđ€āļĢāļĩāļĒāļ method āđƒāļ”āļšāļ™ Pipeline āđ€āļžāļ·āđˆāļ­ train āļ—āļļāļāļ‚āļąāđ‰āļ™āļ•āļ­āļ™āđāļĨāļ°āļ—āļģāļāļēāļĢāļ—āļģāļ™āļēāļĒ?

āļ„āļģāļ•āļ­āļš

method fit_predict āđ„āļĄāđˆāļĄāļĩāļ­āļĒāļđāđˆāđƒāļ™ Pipeline āļŠāļģāļŦāļĢāļąāļš regression āļŦāļĢāļ·āļ­ classification āļ„āļļāļ“āļ•āđ‰āļ­āļ‡āđ€āļĢāļĩāļĒāļ fit() āļāđˆāļ­āļ™āđ€āļžāļ·āđˆāļ­ train pipeline āļˆāļēāļāļ™āļąāđ‰āļ™āđ€āļĢāļĩāļĒāļ predict() āđ€āļžāļ·āđˆāļ­āļĢāļąāļšāļāļēāļĢāļ—āļģāļ™āļēāļĒ āļŦāļĢāļ·āļ­āļ­āļĩāļāļ—āļēāļ‡āļŦāļ™āļķāđˆāļ‡ āļŠāļēāļĄāļēāļĢāļ–āđ€āļĢāļĩāļĒāļ fit() āļ•āļēāļĄāļ”āđ‰āļ§āļĒ predict() āđāļĒāļāļāļąāļ™āđ€āļžāļ·āđˆāļ­āļāļēāļĢāļ„āļ§āļšāļ„āļļāļĄāļ—āļĩāđˆāļĄāļēāļāļ‚āļķāđ‰āļ™

3

Data leakage āđƒāļ™āļšāļĢāļīāļšāļ—āļ‚āļ­āļ‡ machine learning āļ„āļ·āļ­āļ­āļ°āđ„āļĢ?

āļ„āļģāļ•āļ­āļš

Data leakage āđ€āļāļīāļ”āļ‚āļķāđ‰āļ™āđ€āļĄāļ·āđˆāļ­āļ‚āđ‰āļ­āļĄāļđāļĨāļˆāļēāļ test set āļŦāļĢāļ·āļ­āļ‚āđ‰āļ­āļĄāļđāļĨāđƒāļ™āļ­āļ™āļēāļ„āļ•āļ–āļđāļāđƒāļŠāđ‰āđ‚āļ”āļĒāđ„āļĄāđˆāļ•āļąāđ‰āļ‡āđƒāļˆāļĢāļ°āļŦāļ§āđˆāļēāļ‡āļāļēāļĢ training āļŠāļīāđˆāļ‡āļ™āļĩāđ‰āļŠāļēāļĄāļēāļĢāļ–āđ€āļāļīāļ”āļ‚āļķāđ‰āļ™āļĢāļ°āļŦāļ§āđˆāļēāļ‡ preprocessing (āļāļēāļĢāļ„āļģāļ™āļ§āļ“āļ„āđˆāļēāđ€āļ‰āļĨāļĩāđˆāļĒāļˆāļēāļāļ—āļąāđ‰āļ‡ dataset āļāđˆāļ­āļ™āļāļēāļĢ split) āļŦāļĢāļ·āļ­āļœāđˆāļēāļ™ feature āļ—āļĩāđˆāļĄāļĩ target āļ—āļēāļ‡āļ­āđ‰āļ­āļĄ āļœāļĨāļĨāļąāļžāļ˜āđŒāļ„āļ·āļ­āļ›āļĢāļ°āļŠāļīāļ—āļ˜āļīāļ āļēāļžāļŠāļđāļ‡āđ€āļ—āļĩāļĒāļĄāļ—āļĩāđˆāđ„āļĄāđˆāļŠāļēāļĄāļēāļĢāļ– generalize āđ„āļ”āđ‰

4

āļšāļ—āļšāļēāļ—āļ‚āļ­āļ‡ ColumnTransformer āđƒāļ™ scikit-learn āļ„āļ·āļ­āļ­āļ°āđ„āļĢ?

5

K-Fold cross-validation āļ„āļ·āļ­āļ­āļ°āđ„āļĢ?

+19 āļ„āļģāļ–āļēāļĄāļŠāļąāļĄāļ āļēāļĐāļ“āđŒ

āļŦāļąāļ§āļ‚āđ‰āļ­āļŠāļąāļĄāļ āļēāļĐāļ“āđŒ Data Science & ML āļ­āļ·āđˆāļ™āđ†

āļžāļ·āđ‰āļ™āļāļēāļ™ Python

Junior
25 āļ„āļģāļ–āļēāļĄ

āļāļēāļĢāđ€āļ‚āļĩāļĒāļ™āđ‚āļ›āļĢāđāļāļĢāļĄāđ€āļŠāļīāļ‡āļ§āļąāļ•āļ–āļļāļ”āđ‰āļ§āļĒ Python

Junior
20 āļ„āļģāļ–āļēāļĄ

āđ‚āļ„āļĢāļ‡āļŠāļĢāđ‰āļēāļ‡āļ‚āđ‰āļ­āļĄāļđāļĨ Python

Junior
20 āļ„āļģāļ–āļēāļĄ

āļžāļ·āđ‰āļ™āļāļēāļ™ Git

Junior
18 āļ„āļģāļ–āļēāļĄ

āļžāļ·āđ‰āļ™āļāļēāļ™ SQL

Junior
20 āļ„āļģāļ–āļēāļĄ

āļžāļ·āđ‰āļ™āļāļēāļ™ NumPy

Junior
22 āļ„āļģāļ–āļēāļĄ

āļžāļ·āđ‰āļ™āļāļēāļ™ Pandas

Junior
22 āļ„āļģāļ–āļēāļĄ

Jupyter & Google Colab

Junior
16 āļ„āļģāļ–āļēāļĄ

SQL Joins āđāļĨāļ°āļ„āļīāļ§āļĢāļĩāļ‚āļąāđ‰āļ™āļŠāļđāļ‡

Mid-Level
22 āļ„āļģāļ–āļēāļĄ

Pandas āļ‚āļąāđ‰āļ™āļŠāļđāļ‡

Mid-Level
24 āļ„āļģāļ–āļēāļĄ

āļāļēāļĢāđāļŠāļ”āļ‡āļœāļĨāļ‚āđ‰āļ­āļĄāļđāļĨāļ”āđ‰āļ§āļĒ Matplotlib & Seaborn

Mid-Level
20 āļ„āļģāļ–āļēāļĄ

āļāļēāļĢāđāļŠāļ”āļ‡āļœāļĨāđāļšāļšāđ‚āļ•āđ‰āļ•āļ­āļšāļ”āđ‰āļ§āļĒ Plotly

Mid-Level
18 āļ„āļģāļ–āļēāļĄ

āļŠāļ–āļīāļ•āļīāđ€āļŠāļīāļ‡āļžāļĢāļĢāļ“āļ™āļē

Mid-Level
20 āļ„āļģāļ–āļēāļĄ

āļŠāļ–āļīāļ•āļīāđ€āļŠāļīāļ‡āļ­āļ™āļļāļĄāļēāļ™

Mid-Level
24 āļ„āļģāļ–āļēāļĄ

Web Scraping

Mid-Level
18 āļ„āļģāļ–āļēāļĄ

BigQuery & Cloud Data

Mid-Level
18 āļ„āļģāļ–āļēāļĄ

Feature Engineering

Mid-Level
22 āļ„āļģāļ–āļēāļĄ

ML āđāļšāļšāļĄāļĩāļœāļđāđ‰āļŠāļ­āļ™: āļāļēāļĢāļ–āļ”āļ–āļ­āļĒ

Mid-Level
24 āļ„āļģāļ–āļēāļĄ

ML āđāļšāļšāļĄāļĩāļœāļđāđ‰āļŠāļ­āļ™: āļāļēāļĢāļˆāļģāđāļ™āļāļ›āļĢāļ°āđ€āļ āļ—

Mid-Level
24 āļ„āļģāļ–āļēāļĄ

Decision Trees āđāļĨāļ° Ensembles

Mid-Level
24 āļ„āļģāļ–āļēāļĄ

Unsupervised ML

Mid-Level
22 āļ„āļģāļ–āļēāļĄ

Time Series āđāļĨāļ°āļāļēāļĢāļžāļĒāļēāļāļĢāļ“āđŒ

Mid-Level
22 āļ„āļģāļ–āļēāļĄ

āļžāļ·āđ‰āļ™āļāļēāļ™ Deep Learning

Senior
24 āļ„āļģāļ–āļēāļĄ

TensorFlow & Keras

Senior
22 āļ„āļģāļ–āļēāļĄ

CNN āđāļĨāļ°āļāļēāļĢāļˆāļģāđāļ™āļāļ āļēāļž

Senior
24 āļ„āļģāļ–āļēāļĄ

RNN āđāļĨāļ°āļ‹āļĩāđ€āļ„āļ§āļ™āļ‹āđŒ

Senior
22 āļ„āļģāļ–āļēāļĄ

Transformers āđāļĨāļ° Attention

Senior
24 āļ„āļģāļ–āļēāļĄ

NLP āđāļĨāļ° Hugging Face

Senior
24 āļ„āļģāļ–āļēāļĄ

GenAI āđāļĨāļ° LangChain

Senior
24 āļ„āļģāļ–āļēāļĄ

MLOps āđāļĨāļ°āļāļēāļĢ Deploy

Senior
24 āļ„āļģāļ–āļēāļĄ

āđ€āļŠāļĩāđˆāļĒāļ§āļŠāļēāļ Data Science & ML āļŠāļģāļŦāļĢāļąāļšāļāļēāļĢāļŠāļąāļĄāļ āļēāļĐāļ“āđŒāļ„āļĢāļąāđ‰āļ‡āļ–āļąāļ”āđ„āļ›

āđ€āļ‚āđ‰āļēāļ–āļķāļ‡āļ„āļģāļ–āļēāļĄāļ—āļąāđ‰āļ‡āļŦāļĄāļ” flashcards āđāļšāļšāļ—āļ”āļŠāļ­āļšāđ€āļ—āļ„āļ™āļīāļ„ āđāļšāļšāļāļķāļāļŦāļąāļ” code review āđāļĨāļ°āļ•āļąāļ§āļˆāļģāļĨāļ­āļ‡āļŠāļąāļĄāļ āļēāļĐāļ“āđŒ

āđ€āļĢāļīāđˆāļĄāđƒāļŠāđ‰āļŸāļĢāļĩ