Question 1

적은 수의 고유 카테고리(10개 미만)를 가진 명목형 카테고리 변수에는 어떤 encoding 유형을 사용해야 합니까?

Accepted Answer

One-Hot Encoding은 인위적인 순서를 도입하지 않고 각 카테고리에 대해 이진 열을 생성하므로 카테고리가 적은 명목형 변수에 이상적입니다. 숫자(0, 1, 2...)를 할당하는 Label Encoding과 달리, One-Hot은 모델이 카테고리 간에 존재하지 않는 순서 관계를 해석하는 것을 방지합니다.

Question 2

StandardScaler와 MinMaxScaler의 주요 차이점은 무엇입니까?

Accepted Answer

StandardScaler는 데이터를 표준편차 1(z-score)로 0 주위에 중심화하는 반면, MinMaxScaler는 데이터를 일반적으로 [0, 1]의 고정 범위 내에서 정규화합니다. StandardScaler는 평균과 표준편차를 사용하므로 outlier에 덜 민감한 반면, MinMaxScaler는 극단값에 크게 영향을 받을 수 있습니다.

Question 3

데이터에 중요한 outlier가 포함되어 있을 때 어떤 scaler를 선호해야 합니까?

Accepted Answer

RobustScaler는 평균과 표준편차 대신 중앙값과 사분위 범위(IQR)를 사용하여 outlier에 강건합니다. 극단값은 이러한 통계에 크게 영향을 주지 않지만, StandardScaler나 MinMaxScaler는 outlier에 의해 크게 편향될 수 있습니다.

Feature Engineering

적은 수의 고유 카테고리(10개 미만)를 가진 명목형 카테고리 변수에는 어떤 encoding 유형을 사용해야 합니까?

답변

StandardScaler와 MinMaxScaler의 주요 차이점은 무엇입니까?

답변

데이터에 중요한 outlier가 포함되어 있을 때 어떤 scaler를 선호해야 합니까?

답변

Label Encoding이란 무엇이며 언제 사용하는 것이 적절합니까?

Target Encoding은 어떤 문제를 일으킬 수 있으며 어떻게 피할 수 있습니까?

기타 Data Science & ML 면접 주제

Python 기초

Python 객체 지향 프로그래밍

Python 데이터 구조

Git 기초

SQL 기초

NumPy 기초

Pandas 기초

Jupyter & Google Colab

SQL Joins 및 고급 쿼리

Pandas 고급

Matplotlib & Seaborn을 활용한 시각화

Plotly로 만드는 인터랙티브 시각화

기술 통계

추론 통계학

Web Scraping

BigQuery & Cloud Data

지도 머신러닝: 회귀

지도 머신러닝: 분류

결정 트리 및 앙상블

비지도 ML

ML 파이프라인 및 검증

시계열 및 예측

Deep Learning 기초

TensorFlow & Keras

CNN 및 이미지 분류

RNN 및 시퀀스

Transformers 및 Attention

NLP 및 Hugging Face

GenAI 및 LangChain

MLOps 및 배포

다음 면접을 위해 Data Science & ML을 마스터하세요