Data Science & ML

MLパイプラインと検証

Scikit-learnパイプライン、cross-validation、GridSearchCV、RandomizedSearchCV、data leakage、層化

22 面接問題·
Mid-Level
1

scikit-learnのPipelineを使用することの主な利点は、変換を手動で適用することと比べて何ですか?

回答

Pipelineは、同じ変換が訓練データとテストデータの両方に一貫して適用されることを保証します。すべての前処理とモデリングのステップを単一のオブジェクトにカプセル化するため、コードが簡潔になり、data leakageを防ぎ、モデルの本番環境への展開を容易にします。

2

Pipelineですべてのステップを訓練し、予測を行うためにどのメソッドを呼び出すべきですか?

回答

fit_predictメソッドは回帰または分類のPipelineには存在しません。まずfit()を呼び出してパイプラインを訓練し、次にpredict()を呼び出して予測を取得する必要があります。あるいは、より細かい制御のためにfit()の後にpredict()を別々に呼び出すこともできます。

3

機械学習の文脈におけるdata leakageとは何ですか?

回答

Data leakageは、テストセットまたは将来のデータの情報が訓練中に誤って使用された場合に発生します。これは前処理中(分割前のデータセット全体で平均を計算する)またはターゲットを間接的に含む特徴量を通じて発生する可能性があります。これにより、汎化されない人工的に高いパフォーマンスが生じます。

4

scikit-learnにおけるColumnTransformerの役割は何ですか?

5

K-Fold cross-validationとは何ですか?

+19 面接問題

次の面接に向けてData Science & MLをマスター

すべての問題、flashcards、技術テスト、コードレビュー演習、面接シミュレーターにアクセス。

無料で始める