Question 1

Machine Learningにおける decision tree とは何ですか？

Accepted Answer

Decision treeは、階層的な決定ルールに従ってデータを分割することで予測を行うMachine Learningモデルです。各内部ノードは特徴量に対するテストを表し、各ブランチはテストの結果を表し、各リーフは最終的な予測を表します。このモデルは直感的で解釈が容易であり、決定に影響を与える要因を理解するための優れた選択肢となります。

Question 2

scikit-learnでclassification treeのsplitの品質を測定するために、デフォルトでどの基準が使用されますか？

Accepted Answer

Gini indexは、classification treeのscikit-learnにおけるデフォルト基準です。クラス分布に従ってランダムに分類された場合に要素が誤分類される確率を計算することで、ノードの不純度を測定します。Giniが0であれば純粋なノード（単一クラス）を意味し、Giniが高いほどクラスの多様性が大きいことを示します。

Question 3

splitの基準としてのGini indexとエントロピーの主な違いは何ですか？

Accepted Answer

Gini indexとエントロピーは通常非常に似たツリーを生成しますが、Giniは対数計算が不要なため計算がわずかに高速です。情報理論に基づくエントロピーは、時にはわずかにバランスの取れたsplitを作成することがあります。実際には、両者の選択がモデルのパフォーマンスに大きな影響を与えることはほとんどありません。

決定木とアンサンブル

Machine Learningにおける decision tree とは何ですか？

回答

scikit-learnでclassification treeのsplitの品質を測定するために、デフォルトでどの基準が使用されますか？

回答

splitの基準としてのGini indexとエントロピーの主な違いは何ですか？

回答

decision treeにおけるpruningとは何ですか？

scikit-learnでdecision treeの最大深度を制御するハイパーパラメータはどれですか？

その他のData Science & ML面接トピック

Pythonの基礎

Pythonオブジェクト指向プログラミング

Pythonのデータ構造

Git の基礎

SQLの基礎

NumPyの基礎

Pandasの基礎

Jupyter & Google Colab

SQL Joinsと高度なクエリ

Pandas応用

Matplotlib & Seabornによる可視化

Plotlyによるインタラクティブな可視化

記述統計

推測統計学

Web Scraping

BigQuery & Cloud Data

Feature Engineering

教師あり機械学習：回帰

教師あり機械学習：分類

教師なしML

MLパイプラインと検証

時系列と予測

Deep Learningの基礎

TensorFlow & Keras

CNN と画像分類

RNNとシーケンス

TransformersとAttention

NLPとHugging Face

GenAIとLangChain

MLOps とデプロイ

次の面接に向けてData Science & MLをマスター