Data Science & ML

Feature Engineering

カテゴリカルエンコーディング、scaling、正規化、feature selection、特徴量生成、pipelines

22 面接問題·
Mid-Level
1

少数の異なるカテゴリ(10未満)を持つ名義カテゴリカル変数には、どのエンコーディングタイプを使用すべきですか?

回答

One-Hot Encodingは、カテゴリごとにバイナリ列を作成し人為的な順序を導入しないため、カテゴリ数が少ない名義変数に最適です。数値(0, 1, 2...)を割り当てるLabel Encodingとは異なり、One-Hotはモデルがカテゴリ間の存在しない順序関係を解釈することを防ぎます。

2

StandardScalerとMinMaxScalerの主な違いは何ですか?

回答

StandardScalerはデータを0を中心に標準偏差1(zスコア)でセンタリングしますが、MinMaxScalerはデータを固定範囲、通常[0, 1]に正規化します。StandardScalerは平均と標準偏差を使用するため外れ値の影響を受けにくいのに対し、MinMaxScalerは極端な値に大きく影響される可能性があります。

3

データに重要な外れ値が含まれている場合、どのスケーラーを優先すべきですか?

回答

RobustScalerは平均と標準偏差の代わりに中央値と四分位範囲(IQR)を使用するため、外れ値に対して頑健です。極端な値はこれらの統計に大きな影響を与えませんが、StandardScalerやMinMaxScalerは外れ値によって大きく偏る可能性があります。

4

Label Encodingとは何で、いつ使用するのが適切ですか?

5

Target Encodingはどのような問題を引き起こす可能性があり、どのように回避しますか?

+19 面接問題

次の面接に向けてData Science & MLをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める