Question 1

scikit-learnのPipelineを使用することの主な利点は、変換を手動で適用することと比べて何ですか？

Accepted Answer

Pipelineは、同じ変換が訓練データとテストデータの両方に一貫して適用されることを保証します。すべての前処理とモデリングのステップを単一のオブジェクトにカプセル化するため、コードが簡潔になり、data leakageを防ぎ、モデルの本番環境への展開を容易にします。

Question 2

Pipelineですべてのステップを訓練し、予測を行うためにどのメソッドを呼び出すべきですか？

Accepted Answer

fit_predictメソッドは回帰または分類のPipelineには存在しません。まずfit()を呼び出してパイプラインを訓練し、次にpredict()を呼び出して予測を取得する必要があります。あるいは、より細かい制御のためにfit()の後にpredict()を別々に呼び出すこともできます。

Question 3

機械学習の文脈におけるdata leakageとは何ですか？

Accepted Answer

Data leakageは、テストセットまたは将来のデータの情報が訓練中に誤って使用された場合に発生します。これは前処理中（分割前のデータセット全体で平均を計算する）またはターゲットを間接的に含む特徴量を通じて発生する可能性があります。これにより、汎化されない人工的に高いパフォーマンスが生じます。

MLパイプラインと検証

その他のData Science & ML面接トピック