
ฐานข้อมูล NoSQL
GraphDB (Neo4j), Document DBs (MongoDB, Firestore), Wide Column (Cassandra, Bigtable), ทฤษฎีบท CAP, กรณีการใช้งาน
1ทฤษฎีบท CAP คืออะไรและคุณสมบัติทั้งสามของมันคืออะไร?
ทฤษฎีบท CAP คืออะไรและคุณสมบัติทั้งสามของมันคืออะไร?
คำตอบ
ทฤษฎีบท CAP ระบุว่าระบบแบบกระจายสามารถรับประกันคุณสมบัติเพียงสองในสามอย่างพร้อมกันเท่านั้น: Consistency (โหนดทั้งหมดเห็นข้อมูลเดียวกัน), Availability (ระบบตอบสนองเสมอ) และ Partition tolerance (ระบบทำงานต่อไปแม้จะมีการแบ่งเครือข่าย) ทฤษฎีบทนี้เป็นพื้นฐานสำหรับการทำความเข้าใจการแลกเปลี่ยนด้านสถาปัตยกรรมในฐานข้อมูล NoSQL
2ความแตกต่างหลักระหว่างฐานข้อมูล Document (MongoDB) และฐานข้อมูล Wide Column (Cassandra) คืออะไร?
ความแตกต่างหลักระหว่างฐานข้อมูล Document (MongoDB) และฐานข้อมูล Wide Column (Cassandra) คืออะไร?
คำตอบ
ฐานข้อมูล Document เช่น MongoDB เก็บเอกสาร JSON/BSON ด้วย schema ที่ยืดหยุ่นและรองรับ query ที่ซับซ้อนบนฟิลด์ใดๆ ฐานข้อมูล Wide Column เช่น Cassandra จัดระเบียบข้อมูลในรูปแบบ column family พร้อม partition key ซึ่งปรับให้เหมาะกับการเขียนจำนวนมากและการอ่านตาม key MongoDB เก่งในข้อมูลแบบลำดับชั้น Cassandra เก่งในข้อมูลอนุกรมเวลาความเร็วสูง
3ในกรณีการใช้งานใดควรเลือก Neo4j มากกว่า MongoDB หรือ Cassandra?
ในกรณีการใช้งานใดควรเลือก Neo4j มากกว่า MongoDB หรือ Cassandra?
คำตอบ
Neo4j เป็นฐานข้อมูลกราฟที่ปรับให้เหมาะกับความสัมพันธ์ที่ซับซ้อนหลายระดับระหว่างเอนทิตี เก่งในด้านโซเชียลเน็ตเวิร์ก ระบบแนะนำ การตรวจจับการฉ้อโกง และการวิเคราะห์การพึ่งพา ภาษา Cypher ช่วยให้สามารถข้ามผ่านความสัมพันธ์นับล้านในไม่กี่มิลลิวินาที ในที่ที่ SQL join หรือ NoSQL lookup จะช้าเกินไปในแง่ของประสิทธิภาพ
Partition key ใน Cassandra คืออะไรและทำไมจึงสำคัญต่อประสิทธิภาพ?
ไวยากรณ์ Cypher ในการค้นหาเพื่อนของเพื่อนทั้งหมดของผู้ใช้ใน Neo4j คืออะไร?
+17 คำถามสัมภาษณ์
หัวข้อสัมภาษณ์ Data Engineering อื่นๆ
Linux & Shell - พื้นฐาน
Git & GitHub - พื้นฐาน
Python ขั้นสูงสำหรับ Data Engineering
Docker - พื้นฐาน
Google Cloud Platform - พื้นฐาน
CI/CD และคุณภาพโค้ด
Docker Compose
FastAPI - Data API
SQL ขั้นสูงสำหรับ Data Engineering
Data Lake - สถาปัตยกรรมและการนำเข้าข้อมูล
BigQuery สำหรับ Data Engineering
PostgreSQL - การดูแลระบบ
Data Modeling สำหรับ Data Engineering
Fivetran & Airbyte - การนำเข้าข้อมูล
dbt - พื้นฐาน
Apache Airflow - พื้นฐาน
Kubernetes - พื้นฐาน
dbt - ฟีเจอร์ขั้นสูง
รูปแบบ ETL / ELT / ETLT
Apache Airflow - ขั้นสูง
Airflow + dbt - การจัดการ Pipeline
PySpark - การประมวลผลขนาดใหญ่
Google Pub/Sub - การสตรีมข้อมูล
Apache Beam & Dataflow
Kubernetes - Production และ Scaling
Terraform - Infrastructure as Code
Data Architecture สมัยใหม่
การมอนิเตอร์และการสังเกตการณ์
IAM และความปลอดภัยของข้อมูล
เชี่ยวชาญ Data Engineering สำหรับการสัมภาษณ์ครั้งถัดไป
เข้าถึงคำถามทั้งหมด flashcards แบบทดสอบเทคนิค แบบฝึกหัด code review และตัวจำลองสัมภาษณ์
เริ่มใช้ฟรี