Data Science & ML

결정 트리 및 앙상블

Decision Trees, Random Forest, Gradient Boosting, XGBoost, 하이퍼파라미터 튜닝, feature importance

24 면접 질문·
Mid-Level
1

Machine Learning에서 decision tree란 무엇입니까?

답변

Decision tree는 계층적 결정 규칙에 따라 데이터를 분할하여 예측을 수행하는 Machine Learning 모델입니다. 각 내부 노드는 feature에 대한 테스트를 나타내고, 각 분기는 테스트 결과를 나타내며, 각 리프는 최종 예측을 나타냅니다. 이 모델은 직관적이고 해석이 쉬워서 결정에 영향을 미치는 요인을 이해하는 데 탁월한 선택입니다.

2

scikit-learn에서 classification tree의 split 품질을 측정하기 위해 기본적으로 어떤 기준이 사용됩니까?

답변

Gini index는 scikit-learn에서 classification tree에 대한 기본 기준입니다. 클래스 분포에 따라 무작위로 분류될 경우 요소가 잘못 분류될 확률을 계산하여 노드의 불순도를 측정합니다. Gini가 0이면 순수한 노드(단일 클래스)를 의미하고, Gini가 높을수록 클래스의 다양성이 크다는 것을 나타냅니다.

3

split 기준으로서 Gini index와 엔트로피의 주요 차이점은 무엇입니까?

답변

Gini index와 엔트로피는 일반적으로 매우 유사한 트리를 생성하지만, Gini는 로그 계산이 필요하지 않아 계산이 약간 더 빠릅니다. 정보 이론에 기반한 엔트로피는 때때로 약간 더 균형 잡힌 split을 생성할 수 있습니다. 실제로는 두 가지 선택이 모델 성능에 큰 영향을 미치는 경우가 거의 없습니다.

4

decision tree에서 pruning이란 무엇입니까?

5

scikit-learn에서 decision tree의 최대 깊이를 제어하는 하이퍼파라미터는 무엇입니까?

+21 면접 질문

다음 면접을 위해 Data Science & ML을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기