Data Science & ML

Data Science & ML

DATA

Python을 주요 언어로 한 포괄적인 Data Science와 Machine Learning 커리큘럼입니다. Pandas와 NumPy를 활용한 데이터 조작부터 TensorFlow/Keras를 활용한 딥러닝 모델 구현, Scikit-Learn을 활용한 클래식 ML까지 학습합니다. Docker, FastAPI, 클라우드 플랫폼을 활용한 모델 프로덕션 배포와 유지보수를 위한 MLOps 스킬도 포함합니다.

배울 내용

객체 지향 프로그래밍과 모범 사례를 갖춘 현대적 Python

Pandas, NumPy, SQL (BigQuery)을 활용한 데이터 조작

Matplotlib, Seaborn, Plotly를 활용한 시각화

Statsmodel을 활용한 기술 통계와 추론 통계

Scikit-Learn과 XGBoost를 활용한 머신러닝 (회귀, 분류, 클러스터링)

TensorFlow와 Keras를 활용한 딥러닝 (CNN, RNN, Transformers)

Hugging Face, LangChain, LLMs (GPT, Gemini)를 활용한 NLP와 GenAI

MLflow, Docker, FastAPI, Streamlit을 활용한 MLOps

개발 환경: Jupyter, Google Colab

Google Compute, Cloud Storage, GPU를 활용한 클라우드 배포

마스터해야 할 핵심 주제

이 기술을 이해하고 면접에서 성공하기 위한 가장 중요한 개념

1

Python: 타입, 데이터 구조, OOP, 데코레이터, 제너레이터, 컨텍스트 매니저

2

NumPy: 배열, broadcasting, indexing, 벡터화 연산, 선형 대수

3

Pandas: DataFrames, Series, indexing, groupby, merge, pivot, 시계열

4

SQL: SELECT, JOIN, GROUP BY, window functions, CTEs, 쿼리 최적화

5

시각화: Matplotlib (figures, axes, subplots), Seaborn (통계 플롯), Plotly (인터랙티브)

6

통계: 분포, 가설 검정, 신뢰 구간, 회귀

7

피처 엔지니어링: 인코딩, 스케일링, 피처 선택, 피처 생성

8

지도 학습 ML: 선형/로지스틱 회귀, 트리, Random Forest, XGBoost, 메트릭

9

비지도 학습 ML: K-Means, 계층적 클러스터링, PCA, t-SNE

10

ML 파이프라인: train/test split, cross-validation, 하이퍼파라미터 튜닝, 과적합

11

딥러닝: 퍼셉트론, 역전파, 활성화 함수, 옵티마이저, 손실 함수

12

CNN: 합성곱, pooling, 아키텍처 (ResNet, VGG), 전이 학습

13

RNN/LSTM: 시퀀스, 기울기 소실, 어텐션 메커니즘, Transformers

14

NLP: 토큰화, embeddings, word2vec, BERT, LLM 파인튜닝

15

MLOps: 버전 관리 (MLflow), 컨테이너화 (Docker), API (FastAPI), 모니터링

16

Cloud: Google Cloud (Compute, Storage, BigQuery), GPU 학습, Vertex AI

17

AI 윤리: 편향, 설명 가능성 (SHAP, LIME), 공정성, GDPR