
Feature Engineering
カテゴリカルエンコーディング、scaling、正規化、feature selection、特徴量生成、pipelines
22 面接問題·
Mid-Level
1少数の異なるカテゴリ(10未満)を持つ名義カテゴリカル変数には、どのエンコーディングタイプを使用すべきですか?
1
少数の異なるカテゴリ(10未満)を持つ名義カテゴリカル変数には、どのエンコーディングタイプを使用すべきですか?
回答
One-Hot Encodingは、カテゴリごとにバイナリ列を作成し人為的な順序を導入しないため、カテゴリ数が少ない名義変数に最適です。数値(0, 1, 2...)を割り当てるLabel Encodingとは異なり、One-Hotはモデルがカテゴリ間の存在しない順序関係を解釈することを防ぎます。
2StandardScalerとMinMaxScalerの主な違いは何ですか?
2
StandardScalerとMinMaxScalerの主な違いは何ですか?
回答
StandardScalerはデータを0を中心に標準偏差1(zスコア)でセンタリングしますが、MinMaxScalerはデータを固定範囲、通常[0, 1]に正規化します。StandardScalerは平均と標準偏差を使用するため外れ値の影響を受けにくいのに対し、MinMaxScalerは極端な値に大きく影響される可能性があります。
3データに重要な外れ値が含まれている場合、どのスケーラーを優先すべきですか?
3
データに重要な外れ値が含まれている場合、どのスケーラーを優先すべきですか?
回答
RobustScalerは平均と標準偏差の代わりに中央値と四分位範囲(IQR)を使用するため、外れ値に対して頑健です。極端な値はこれらの統計に大きな影響を与えませんが、StandardScalerやMinMaxScalerは外れ値によって大きく偏る可能性があります。
4
Label Encodingとは何で、いつ使用するのが適切ですか?
5
Target Encodingはどのような問題を引き起こす可能性があり、どのように回避しますか?
+19 面接問題
その他のData Science & ML面接トピック
Pythonの基礎
Junior
25問Pythonオブジェクト指向プログラミング
Junior
20問Pythonのデータ構造
Junior
20問Git の基礎
Junior
18問SQLの基礎
Junior
20問NumPyの基礎
Junior
22問Pandasの基礎
Junior
22問Jupyter & Google Colab
Junior
16問SQL Joinsと高度なクエリ
Mid-Level
22問Pandas応用
Mid-Level
24問Matplotlib & Seabornによる可視化
Mid-Level
20問Plotlyによるインタラクティブな可視化
Mid-Level
18問記述統計
Mid-Level
20問推測統計学
Mid-Level
24問Web Scraping
Mid-Level
18問BigQuery & Cloud Data
Mid-Level
18問教師あり機械学習:回帰
Mid-Level
24問教師あり機械学習:分類
Mid-Level
24問決定木とアンサンブル
Mid-Level
24問教師なしML
Mid-Level
22問MLパイプラインと検証
Mid-Level
22問時系列と予測
Mid-Level
22問Deep Learningの基礎
Senior
24問TensorFlow & Keras
Senior
22問CNN と画像分類
Senior
24問RNNとシーケンス
Senior
22問TransformersとAttention
Senior
24問NLPとHugging Face
Senior
24問GenAIとLangChain
Senior
24問MLOps とデプロイ
Senior
24問