
Feature Engineering
카테고리 인코딩, scaling, 정규화, feature selection, 특징 생성, pipelines
22 면접 질문·
Mid-Level
1적은 수의 고유 카테고리(10개 미만)를 가진 명목형 카테고리 변수에는 어떤 encoding 유형을 사용해야 합니까?
1
적은 수의 고유 카테고리(10개 미만)를 가진 명목형 카테고리 변수에는 어떤 encoding 유형을 사용해야 합니까?
답변
One-Hot Encoding은 인위적인 순서를 도입하지 않고 각 카테고리에 대해 이진 열을 생성하므로 카테고리가 적은 명목형 변수에 이상적입니다. 숫자(0, 1, 2...)를 할당하는 Label Encoding과 달리, One-Hot은 모델이 카테고리 간에 존재하지 않는 순서 관계를 해석하는 것을 방지합니다.
2StandardScaler와 MinMaxScaler의 주요 차이점은 무엇입니까?
2
StandardScaler와 MinMaxScaler의 주요 차이점은 무엇입니까?
답변
StandardScaler는 데이터를 표준편차 1(z-score)로 0 주위에 중심화하는 반면, MinMaxScaler는 데이터를 일반적으로 [0, 1]의 고정 범위 내에서 정규화합니다. StandardScaler는 평균과 표준편차를 사용하므로 outlier에 덜 민감한 반면, MinMaxScaler는 극단값에 크게 영향을 받을 수 있습니다.
3데이터에 중요한 outlier가 포함되어 있을 때 어떤 scaler를 선호해야 합니까?
3
데이터에 중요한 outlier가 포함되어 있을 때 어떤 scaler를 선호해야 합니까?
답변
RobustScaler는 평균과 표준편차 대신 중앙값과 사분위 범위(IQR)를 사용하여 outlier에 강건합니다. 극단값은 이러한 통계에 크게 영향을 주지 않지만, StandardScaler나 MinMaxScaler는 outlier에 의해 크게 편향될 수 있습니다.
4
Label Encoding이란 무엇이며 언제 사용하는 것이 적절합니까?
5
Target Encoding은 어떤 문제를 일으킬 수 있으며 어떻게 피할 수 있습니까?
+19 면접 질문
기타 Data Science & ML 면접 주제
Python 기초
Junior
25개 질문Python 객체 지향 프로그래밍
Junior
20개 질문Python 데이터 구조
Junior
20개 질문Git 기초
Junior
18개 질문SQL 기초
Junior
20개 질문NumPy 기초
Junior
22개 질문Pandas 기초
Junior
22개 질문Jupyter & Google Colab
Junior
16개 질문SQL Joins 및 고급 쿼리
Mid-Level
22개 질문Pandas 고급
Mid-Level
24개 질문Matplotlib & Seaborn을 활용한 시각화
Mid-Level
20개 질문Plotly로 만드는 인터랙티브 시각화
Mid-Level
18개 질문기술 통계
Mid-Level
20개 질문추론 통계학
Mid-Level
24개 질문Web Scraping
Mid-Level
18개 질문BigQuery & Cloud Data
Mid-Level
18개 질문지도 머신러닝: 회귀
Mid-Level
24개 질문지도 머신러닝: 분류
Mid-Level
24개 질문결정 트리 및 앙상블
Mid-Level
24개 질문비지도 ML
Mid-Level
22개 질문ML 파이프라인 및 검증
Mid-Level
22개 질문시계열 및 예측
Mid-Level
22개 질문Deep Learning 기초
Senior
24개 질문TensorFlow & Keras
Senior
22개 질문CNN 및 이미지 분류
Senior
24개 질문RNN 및 시퀀스
Senior
22개 질문Transformers 및 Attention
Senior
24개 질문NLP 및 Hugging Face
Senior
24개 질문GenAI 및 LangChain
Senior
24개 질문MLOps 및 배포
Senior
24개 질문