
Data Cleaning - データクレンジング
欠損値、重複、外れ値、ビジネスルール、変換、データ品質
20 面接問題·
Junior
1データセットにおける欠損値(missing value)とは何ですか?
1
データセットにおける欠損値(missing value)とは何ですか?
回答
欠損値は、フィールドに存在しないか入力されていないデータを表します。空のセル、データベースのNULL、またはDataFrameのNaNとして現れることがあります。欠損値の特定は、統計分析や集計を歪める可能性があるため、データクレンジングの最初のステップとなります。
2データベースにおけるNULL値と空文字列の違いは何ですか?
2
データベースにおけるNULL値と空文字列の違いは何ですか?
回答
NULLは値が不明または存在しないことを意味し、空文字列はたまたま空である既知の値です。この区別はSQLにおいて基本的であり、NULLは=演算子で比較できず(IS NULLを使用する必要がある)、空文字列は= ''で通常通り比較できます。
3データセットにおける重複(duplicate)とは何ですか?
3
データセットにおける重複(duplicate)とは何ですか?
回答
重複とは、データセット内で複数回出現するレコードであり、完全一致(すべての列が同一)または部分一致(特定のキー列が同一)の場合があります。重複はカウント、合計、平均を歪めます。その検出は通常、一意であるべきキー列を特定することに依存します。
4
SQLで完全な重複を検出するための技術はどれですか?
5
データセットにおける外れ値(outlier)とは何ですか?
+17 面接問題
その他のData Analytics面接トピック
Google Sheets - 基礎
Junior
20問Google Sheets - 高度な数式
Junior
20問SQL - 基礎
Junior
25問SQL - 集計とグルーピング
Junior
20問SQL - 結合
Junior
20問BigQuery - 基礎
Junior
20問KPIとビジネスメトリクス
Junior
20問記述統計
Junior
20問ZapierとNo-Codeオートメーション
Junior
20問データビジュアライゼーションの原則
Junior
20問Python & Pandas - 基礎
Junior
20問Google Sheets - 自動化ダッシュボード
Mid-Level
20問SQL - サブクエリとCTE
Mid-Level
20問SQL - Window Functions
Mid-Level
20問BigQuery - 高度な機能
Mid-Level
20問Data Modeling
Mid-Level
20問ファネルとコンバージョン分析
Mid-Level
20問コホートとリテンション分析
Mid-Level
20問Google Tag Managerとトラッキング
Mid-Level
20問APIとWebhook
Mid-Level
20問dbt - 基礎
Mid-Level
20問ABテストと応用統計学
Mid-Level
20問Looker Studio (Google Data Studio)
Mid-Level
20問Power BI - 基礎
Mid-Level
20問SQL - 高度な分析クエリ
Senior
20問dbt - 高度な機能
Senior
20問Power BI - DAXと高度なダッシュボード
Senior
20問Python Analytics - 高度な分析とML
Senior
20問