Question 1

Що таке теорема CAP і які три її властивості?

Accepted Answer

Теорема CAP стверджує, що розподілена система може одночасно гарантувати лише дві з трьох властивостей: Consistency (усі вузли бачать однакові дані), Availability (система завжди відповідає) і Partition tolerance (система продовжує працювати, незважаючи на мережеві розділи). Ця теорема є фундаментальною для розуміння архітектурних компромісів у базах NoSQL.

Question 2

Яка основна відмінність між базою даних Document (MongoDB) і базою Wide Column (Cassandra)?

Accepted Answer

Бази Document, такі як MongoDB, зберігають документи JSON/BSON з гнучкими схемами та дозволяють складні запити на будь-якому полі. Бази Wide Column, такі як Cassandra, організовують дані в column family з partition key, оптимізовані для масових записів і читань за ключем. MongoDB чудово підходить для ієрархічних даних, Cassandra — для високошвидкісних часових рядів.

Question 3

У якому випадку використання слід надавати перевагу Neo4j перед MongoDB або Cassandra?

Accepted Answer

Neo4j — це графова база даних, оптимізована для складних багаторівневих зв'язків між сутностями. Вона чудово підходить для соціальних мереж, систем рекомендацій, виявлення шахрайства та аналізу залежностей. Мова Cypher дозволяє обходити мільйони зв'язків за мілісекунди, тоді як SQL join або NoSQL lookup були б непридатними з точки зору продуктивності.

Бази даних NoSQL

Що таке теорема CAP і які три її властивості?

Відповідь

Яка основна відмінність між базою даних Document (MongoDB) і базою Wide Column (Cassandra)?

Відповідь

У якому випадку використання слід надавати перевагу Neo4j перед MongoDB або Cassandra?

Відповідь

Що таке partition key у Cassandra і чому він критично важливий для продуктивності?

Який синтаксис Cypher для пошуку всіх друзів друзів користувача в Neo4j?

Інші теми співбесід Data Engineering

Linux & Shell - Основи

Git & GitHub - Основи

Просунутий Python для Data Engineering

Docker - Основи

Google Cloud Platform - Основи

CI/CD та якість коду

Docker Compose

FastAPI - API даних

Просунутий SQL для Data Engineering

Data Lake - Архітектура та завантаження даних

BigQuery для Data Engineering

PostgreSQL - Адміністрування

Data Modeling для Data Engineering

Fivetran & Airbyte - Завантаження даних

dbt - Основи

Apache Airflow - Основи

Kubernetes - Основи

dbt - Розширені можливості

Патерни ETL / ELT / ETLT

Apache Airflow - Просунутий

Airflow + dbt - Оркестрація пайплайнів

PySpark - Великомасштабна обробка

Google Pub/Sub - Стрімінг даних

Apache Beam & Dataflow

Kubernetes - Продакшн та масштабування

Terraform - Infrastructure as Code

Сучасна Data Architecture

Моніторинг та спостережуваність

IAM та безпека даних

Опануй Data Engineering для наступної співбесіди