Data Analytics

Data Cleaning - การทำความสะอาดข้อมูล

ค่าที่หายไป, รายการซ้ำ, outlier, กฎทางธุรกิจ, การแปลง, คุณภาพข้อมูล

20 คำถามสัมภาษณ์·
Junior
1

missing value ในชุดข้อมูลคืออะไร?

คำตอบ

missing value แสดงถึงข้อมูลที่ขาดหายไปหรือไม่ได้กรอกในฟิลด์ อาจปรากฏเป็นเซลล์ว่าง NULL ในฐานข้อมูล หรือ NaN ใน DataFrame การระบุ missing value เป็นขั้นตอนแรกของการทำความสะอาดข้อมูลเพราะอาจทำให้การวิเคราะห์ทางสถิติและการรวมข้อมูลคลาดเคลื่อน

2

ความแตกต่างระหว่างค่า NULL กับสตริงว่างในฐานข้อมูลคืออะไร?

คำตอบ

NULL หมายถึงค่าที่ไม่ทราบหรือไม่มีอยู่ ในขณะที่สตริงว่างคือค่าที่ทราบแต่ว่างเปล่า ความแตกต่างนี้เป็นพื้นฐานใน SQL เพราะ NULL ไม่สามารถเปรียบเทียบด้วยตัวดำเนินการ = (ต้องใช้ IS NULL) ในขณะที่สตริงว่างสามารถเปรียบเทียบได้ตามปกติด้วย = ''

3

รายการซ้ำ (duplicate) ในชุดข้อมูลคืออะไร?

คำตอบ

รายการซ้ำคือเรกคอร์ดที่ปรากฏมากกว่าหนึ่งครั้งในชุดข้อมูล โดยอาจเป็นแบบตรงทุกประการ (ทุกคอลัมน์เหมือนกัน) หรือบางส่วน (บางคอลัมน์คีย์เหมือนกัน) รายการซ้ำทำให้การนับ การรวม และการเฉลี่ยคลาดเคลื่อน การตรวจหามักอาศัยการระบุคอลัมน์คีย์ที่ควรจะไม่ซ้ำกัน

4

เทคนิคใดที่ช่วยให้สามารถตรวจจับรายการซ้ำที่ตรงทุกประการใน SQL ได้?

5

outlier (ค่าผิดปกติ) ในชุดข้อมูลคืออะไร?

+17 คำถามสัมภาษณ์

หัวข้อสัมภาษณ์ Data Analytics อื่นๆ

Google Sheets - พื้นฐาน

Junior
20 คำถาม

Google Sheets - สูตรขั้นสูง

Junior
20 คำถาม

SQL - พื้นฐาน

Junior
25 คำถาม

SQL - การรวมและการจัดกลุ่ม

Junior
20 คำถาม

SQL - Joins

Junior
20 คำถาม

BigQuery - พื้นฐาน

Junior
20 คำถาม

KPI และเมตริกทางธุรกิจ

Junior
20 คำถาม

สถิติเชิงพรรณนา

Junior
20 คำถาม

Zapier และระบบอัตโนมัติ No-Code

Junior
20 คำถาม

หลักการ Data Visualization

Junior
20 คำถาม

Python & Pandas - พื้นฐาน

Junior
20 คำถาม

Google Sheets - แดชบอร์ดอัตโนมัติ

Mid-Level
20 คำถาม

SQL - Subquery และ CTE

Mid-Level
20 คำถาม

SQL - Window Functions

Mid-Level
20 คำถาม

BigQuery - ฟีเจอร์ขั้นสูง

Mid-Level
20 คำถาม

Data Modeling

Mid-Level
20 คำถาม

การวิเคราะห์ Funnel และ Conversion

Mid-Level
20 คำถาม

การวิเคราะห์ Cohort และ Retention

Mid-Level
20 คำถาม

Google Tag Manager และการติดตาม

Mid-Level
20 คำถาม

API และ Webhook

Mid-Level
20 คำถาม

dbt - พื้นฐาน

Mid-Level
20 คำถาม

AB Testing และสถิติประยุกต์

Mid-Level
20 คำถาม

Looker Studio (Google Data Studio)

Mid-Level
20 คำถาม

Power BI - พื้นฐาน

Mid-Level
20 คำถาม

SQL - การคิวรีเชิงวิเคราะห์ขั้นสูง

Senior
20 คำถาม

dbt - ฟีเจอร์ขั้นสูง

Senior
20 คำถาม

Power BI - DAX และแดชบอร์ดขั้นสูง

Senior
20 คำถาม

Python Analytics - การวิเคราะห์ขั้นสูงและ ML

Senior
20 คำถาม

เชี่ยวชาญ Data Analytics สำหรับการสัมภาษณ์ครั้งถัดไป

เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์

เริ่มใช้ฟรี