Data Science & ML

Feature Engineering

카테고리 인코딩, scaling, 정규화, feature selection, 특징 생성, pipelines

22 면접 질문·
Mid-Level
1

적은 수의 고유 카테고리(10개 미만)를 가진 명목형 카테고리 변수에는 어떤 encoding 유형을 사용해야 합니까?

답변

One-Hot Encoding은 인위적인 순서를 도입하지 않고 각 카테고리에 대해 이진 열을 생성하므로 카테고리가 적은 명목형 변수에 이상적입니다. 숫자(0, 1, 2...)를 할당하는 Label Encoding과 달리, One-Hot은 모델이 카테고리 간에 존재하지 않는 순서 관계를 해석하는 것을 방지합니다.

2

StandardScaler와 MinMaxScaler의 주요 차이점은 무엇입니까?

답변

StandardScaler는 데이터를 표준편차 1(z-score)로 0 주위에 중심화하는 반면, MinMaxScaler는 데이터를 일반적으로 [0, 1]의 고정 범위 내에서 정규화합니다. StandardScaler는 평균과 표준편차를 사용하므로 outlier에 덜 민감한 반면, MinMaxScaler는 극단값에 크게 영향을 받을 수 있습니다.

3

데이터에 중요한 outlier가 포함되어 있을 때 어떤 scaler를 선호해야 합니까?

답변

RobustScaler는 평균과 표준편차 대신 중앙값과 사분위 범위(IQR)를 사용하여 outlier에 강건합니다. 극단값은 이러한 통계에 크게 영향을 주지 않지만, StandardScaler나 MinMaxScaler는 outlier에 의해 크게 편향될 수 있습니다.

4

Label Encoding이란 무엇이며 언제 사용하는 것이 적절합니까?

5

Target Encoding은 어떤 문제를 일으킬 수 있으며 어떻게 피할 수 있습니까?

+19 면접 질문

다음 면접을 위해 Data Science & ML을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기