
ML ํ์ดํ๋ผ์ธ ๋ฐ ๊ฒ์ฆ
Scikit-learn ํ์ดํ๋ผ์ธ, cross-validation, GridSearchCV, RandomizedSearchCV, data leakage, ๊ณ์ธตํ
1๋ณํ์ ์๋์ผ๋ก ์ ์ฉํ๋ ๋์ scikit-learn Pipeline์ ์ฌ์ฉํ๋ ์ฃผ์ ์ด์ ์ ๋ฌด์์
๋๊น?
๋ณํ์ ์๋์ผ๋ก ์ ์ฉํ๋ ๋์ scikit-learn Pipeline์ ์ฌ์ฉํ๋ ์ฃผ์ ์ด์ ์ ๋ฌด์์ ๋๊น?
๋ต๋ณ
Pipeline์ ๋์ผํ ๋ณํ์ด ํ๋ จ ๋ฐ์ดํฐ์ ํ ์คํธ ๋ฐ์ดํฐ์ ์ผ๊ด๋๊ฒ ์ ์ฉ๋๋๋ก ๋ณด์ฅํฉ๋๋ค. ๋ชจ๋ ์ ์ฒ๋ฆฌ ๋ฐ ๋ชจ๋ธ๋ง ๋จ๊ณ๋ฅผ ๋จ์ผ ๊ฐ์ฒด๋ก ์บก์ํํ์ฌ ์ฝ๋๋ฅผ ๋จ์ํํ๊ณ data leakage๋ฅผ ๋ฐฉ์งํ๋ฉฐ ๋ชจ๋ธ์ ํ๋ก๋์ ์ ๋ฐฐํฌํ๊ธฐ ์ฝ๊ฒ ๋ง๋ญ๋๋ค.
2Pipeline์ ๋ชจ๋ ๋จ๊ณ๋ฅผ ํ๋ จํ๊ณ ์์ธก์ ์ํํ๊ธฐ ์ํด ์ด๋ค ๋ฉ์๋๋ฅผ ํธ์ถํด์ผ ํฉ๋๊น?
Pipeline์ ๋ชจ๋ ๋จ๊ณ๋ฅผ ํ๋ จํ๊ณ ์์ธก์ ์ํํ๊ธฐ ์ํด ์ด๋ค ๋ฉ์๋๋ฅผ ํธ์ถํด์ผ ํฉ๋๊น?
๋ต๋ณ
fit_predict ๋ฉ์๋๋ ํ๊ท ๋๋ ๋ถ๋ฅ Pipeline์๋ ์กด์ฌํ์ง ์์ต๋๋ค. ๋จผ์ fit()์ ํธ์ถํ์ฌ ํ์ดํ๋ผ์ธ์ ํ๋ จํ ๋ค์ predict()๋ฅผ ํธ์ถํ์ฌ ์์ธก์ ์ป์ด์ผ ํฉ๋๋ค. ๋๋ ๋ ๋ง์ ์ ์ด๋ฅผ ์ํด fit() ๋ค์์ predict()๋ฅผ ๋ณ๋๋ก ํธ์ถํ ์ ์์ต๋๋ค.
3๋จธ์ ๋ฌ๋ ๋งฅ๋ฝ์์ data leakage๋ ๋ฌด์์
๋๊น?
๋จธ์ ๋ฌ๋ ๋งฅ๋ฝ์์ data leakage๋ ๋ฌด์์ ๋๊น?
๋ต๋ณ
Data leakage๋ ํ ์คํธ ์ธํธ๋ ๋ฏธ๋ ๋ฐ์ดํฐ์ ์ ๋ณด๊ฐ ํ๋ จ ์ค์ ์ฐ์ฐํ ์ฌ์ฉ๋ ๋ ๋ฐ์ํฉ๋๋ค. ์ด๋ ์ ์ฒ๋ฆฌ ์ค(๋ถํ ์ ์ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ๋ํด ํ๊ท ์ ๊ณ์ฐ) ๋๋ ํ๊ฒ์ ๊ฐ์ ์ ์ผ๋ก ํฌํจํ๋ ํน์ฑ์ ํตํด ๋ฐ์ํ ์ ์์ต๋๋ค. ์ด๋ ์ผ๋ฐํ๋์ง ์๋ ์ธ์์ ์ผ๋ก ๋์ ์ฑ๋ฅ์ ์ด๋ํฉ๋๋ค.
scikit-learn์์ ColumnTransformer์ ์ญํ ์ ๋ฌด์์ ๋๊น?
K-Fold cross-validation์ด๋ ๋ฌด์์ ๋๊น?
+19 ๋ฉด์ ์ง๋ฌธ
๊ธฐํ Data Science & ML ๋ฉด์ ์ฃผ์
Python ๊ธฐ์ด
Python ๊ฐ์ฒด ์งํฅ ํ๋ก๊ทธ๋๋ฐ
Python ๋ฐ์ดํฐ ๊ตฌ์กฐ
Git ๊ธฐ์ด
SQL ๊ธฐ์ด
NumPy ๊ธฐ์ด
Pandas ๊ธฐ์ด
Jupyter & Google Colab
SQL Joins ๋ฐ ๊ณ ๊ธ ์ฟผ๋ฆฌ
Pandas ๊ณ ๊ธ
Matplotlib & Seaborn์ ํ์ฉํ ์๊ฐํ
Plotly๋ก ๋ง๋๋ ์ธํฐ๋ํฐ๋ธ ์๊ฐํ
๊ธฐ์ ํต๊ณ
์ถ๋ก ํต๊ณํ
Web Scraping
BigQuery & Cloud Data
Feature Engineering
์ง๋ ๋จธ์ ๋ฌ๋: ํ๊ท
์ง๋ ๋จธ์ ๋ฌ๋: ๋ถ๋ฅ
๊ฒฐ์ ํธ๋ฆฌ ๋ฐ ์์๋ธ
๋น์ง๋ ML
์๊ณ์ด ๋ฐ ์์ธก
Deep Learning ๊ธฐ์ด
TensorFlow & Keras
CNN ๋ฐ ์ด๋ฏธ์ง ๋ถ๋ฅ
RNN ๋ฐ ์ํ์ค
Transformers ๋ฐ Attention
NLP ๋ฐ Hugging Face
GenAI ๋ฐ LangChain
MLOps ๋ฐ ๋ฐฐํฌ
๋ค์ ๋ฉด์ ์ ์ํด Data Science & ML์ ๋ง์คํฐํ์ธ์
๋ชจ๋ ์ง๋ฌธ, flashcards, ๊ธฐ์ ํ ์คํธ, ์ฝ๋ ๋ฆฌ๋ทฐ ์ฐ์ต, ๋ฉด์ ์๋ฎฌ๋ ์ดํฐ์ ์ ๊ทผํ์ธ์.
๋ฌด๋ฃ๋ก ์์ํ๊ธฐ