
MLパイプラインと検証
Scikit-learnパイプライン、cross-validation、GridSearchCV、RandomizedSearchCV、data leakage、層化
22 面接問題·
Mid-Level
1scikit-learnのPipelineを使用することの主な利点は、変換を手動で適用することと比べて何ですか?
1
scikit-learnのPipelineを使用することの主な利点は、変換を手動で適用することと比べて何ですか?
回答
Pipelineは、同じ変換が訓練データとテストデータの両方に一貫して適用されることを保証します。すべての前処理とモデリングのステップを単一のオブジェクトにカプセル化するため、コードが簡潔になり、data leakageを防ぎ、モデルの本番環境への展開を容易にします。
2Pipelineですべてのステップを訓練し、予測を行うためにどのメソッドを呼び出すべきですか?
2
Pipelineですべてのステップを訓練し、予測を行うためにどのメソッドを呼び出すべきですか?
回答
fit_predictメソッドは回帰または分類のPipelineには存在しません。まずfit()を呼び出してパイプラインを訓練し、次にpredict()を呼び出して予測を取得する必要があります。あるいは、より細かい制御のためにfit()の後にpredict()を別々に呼び出すこともできます。
3機械学習の文脈におけるdata leakageとは何ですか?
3
機械学習の文脈におけるdata leakageとは何ですか?
回答
Data leakageは、テストセットまたは将来のデータの情報が訓練中に誤って使用された場合に発生します。これは前処理中(分割前のデータセット全体で平均を計算する)またはターゲットを間接的に含む特徴量を通じて発生する可能性があります。これにより、汎化されない人工的に高いパフォーマンスが生じます。
4
scikit-learnにおけるColumnTransformerの役割は何ですか?
5
K-Fold cross-validationとは何ですか?
+19 面接問題
その他のData Science & ML面接トピック
Pythonの基礎
Junior
25問Pythonオブジェクト指向プログラミング
Junior
20問Pythonのデータ構造
Junior
20問Git の基礎
Junior
18問SQLの基礎
Junior
20問NumPyの基礎
Junior
22問Pandasの基礎
Junior
22問Jupyter & Google Colab
Junior
16問SQL Joinsと高度なクエリ
Mid-Level
22問Pandas応用
Mid-Level
24問Matplotlib & Seabornによる可視化
Mid-Level
20問Plotlyによるインタラクティブな可視化
Mid-Level
18問記述統計
Mid-Level
20問推測統計学
Mid-Level
24問Web Scraping
Mid-Level
18問BigQuery & Cloud Data
Mid-Level
18問Feature Engineering
Mid-Level
22問教師あり機械学習:回帰
Mid-Level
24問教師あり機械学習:分類
Mid-Level
24問決定木とアンサンブル
Mid-Level
24問教師なしML
Mid-Level
22問時系列と予測
Mid-Level
22問Deep Learningの基礎
Senior
24問TensorFlow & Keras
Senior
22問CNN と画像分類
Senior
24問RNNとシーケンス
Senior
22問TransformersとAttention
Senior
24問NLPとHugging Face
Senior
24問GenAIとLangChain
Senior
24問MLOps とデプロイ
Senior
24問