Question 1

Machine Learning에서 decision tree란 무엇입니까?

Accepted Answer

Decision tree는 계층적 결정 규칙에 따라 데이터를 분할하여 예측을 수행하는 Machine Learning 모델입니다. 각 내부 노드는 feature에 대한 테스트를 나타내고, 각 분기는 테스트 결과를 나타내며, 각 리프는 최종 예측을 나타냅니다. 이 모델은 직관적이고 해석이 쉬워서 결정에 영향을 미치는 요인을 이해하는 데 탁월한 선택입니다.

Question 2

scikit-learn에서 classification tree의 split 품질을 측정하기 위해 기본적으로 어떤 기준이 사용됩니까?

Accepted Answer

Gini index는 scikit-learn에서 classification tree에 대한 기본 기준입니다. 클래스 분포에 따라 무작위로 분류될 경우 요소가 잘못 분류될 확률을 계산하여 노드의 불순도를 측정합니다. Gini가 0이면 순수한 노드(단일 클래스)를 의미하고, Gini가 높을수록 클래스의 다양성이 크다는 것을 나타냅니다.

Question 3

split 기준으로서 Gini index와 엔트로피의 주요 차이점은 무엇입니까?

Accepted Answer

Gini index와 엔트로피는 일반적으로 매우 유사한 트리를 생성하지만, Gini는 로그 계산이 필요하지 않아 계산이 약간 더 빠릅니다. 정보 이론에 기반한 엔트로피는 때때로 약간 더 균형 잡힌 split을 생성할 수 있습니다. 실제로는 두 가지 선택이 모델 성능에 큰 영향을 미치는 경우가 거의 없습니다.

결정 트리 및 앙상블

Machine Learning에서 decision tree란 무엇입니까?

답변

scikit-learn에서 classification tree의 split 품질을 측정하기 위해 기본적으로 어떤 기준이 사용됩니까?

답변

split 기준으로서 Gini index와 엔트로피의 주요 차이점은 무엇입니까?

답변

decision tree에서 pruning이란 무엇입니까?

scikit-learn에서 decision tree의 최대 깊이를 제어하는 하이퍼파라미터는 무엇입니까?

기타 Data Science & ML 면접 주제

Python 기초

Python 객체 지향 프로그래밍

Python 데이터 구조

Git 기초

SQL 기초

NumPy 기초

Pandas 기초

Jupyter & Google Colab

SQL Joins 및 고급 쿼리

Pandas 고급

Matplotlib & Seaborn을 활용한 시각화

Plotly로 만드는 인터랙티브 시각화

기술 통계

추론 통계학

Web Scraping

BigQuery & Cloud Data

Feature Engineering

지도 머신러닝: 회귀

지도 머신러닝: 분류

비지도 ML

ML 파이프라인 및 검증

시계열 및 예측

Deep Learning 기초

TensorFlow & Keras

CNN 및 이미지 분류

RNN 및 시퀀스

Transformers 및 Attention

NLP 및 Hugging Face

GenAI 및 LangChain

MLOps 및 배포

다음 면접을 위해 Data Science & ML을 마스터하세요