Question 1

少数の異なるカテゴリ（10未満）を持つ名義カテゴリカル変数には、どのエンコーディングタイプを使用すべきですか？

Accepted Answer

One-Hot Encodingは、カテゴリごとにバイナリ列を作成し人為的な順序を導入しないため、カテゴリ数が少ない名義変数に最適です。数値（0, 1, 2...）を割り当てるLabel Encodingとは異なり、One-Hotはモデルがカテゴリ間の存在しない順序関係を解釈することを防ぎます。

Question 2

StandardScalerとMinMaxScalerの主な違いは何ですか？

Accepted Answer

StandardScalerはデータを0を中心に標準偏差1（zスコア）でセンタリングしますが、MinMaxScalerはデータを固定範囲、通常[0, 1]に正規化します。StandardScalerは平均と標準偏差を使用するため外れ値の影響を受けにくいのに対し、MinMaxScalerは極端な値に大きく影響される可能性があります。

Question 3

データに重要な外れ値が含まれている場合、どのスケーラーを優先すべきですか？

Accepted Answer

RobustScalerは平均と標準偏差の代わりに中央値と四分位範囲（IQR）を使用するため、外れ値に対して頑健です。極端な値はこれらの統計に大きな影響を与えませんが、StandardScalerやMinMaxScalerは外れ値によって大きく偏る可能性があります。

Feature Engineering

少数の異なるカテゴリ（10未満）を持つ名義カテゴリカル変数には、どのエンコーディングタイプを使用すべきですか？

回答

StandardScalerとMinMaxScalerの主な違いは何ですか？

回答

データに重要な外れ値が含まれている場合、どのスケーラーを優先すべきですか？

回答

Label Encodingとは何で、いつ使用するのが適切ですか？

Target Encodingはどのような問題を引き起こす可能性があり、どのように回避しますか？

その他のData Science & ML面接トピック

Pythonの基礎

Pythonオブジェクト指向プログラミング

Pythonのデータ構造

Git の基礎

SQLの基礎

NumPyの基礎

Pandasの基礎

Jupyter & Google Colab

SQL Joinsと高度なクエリ

Pandas応用

Matplotlib & Seabornによる可視化

Plotlyによるインタラクティブな可視化

記述統計

推測統計学

Web Scraping

BigQuery & Cloud Data

教師あり機械学習：回帰

教師あり機械学習：分類

決定木とアンサンブル

教師なしML

MLパイプラインと検証

時系列と予測

Deep Learningの基礎

TensorFlow & Keras

CNN と画像分類

RNNとシーケンス

TransformersとAttention

NLPとHugging Face

GenAIとLangChain

MLOps とデプロイ

次の面接に向けてData Science & MLをマスター