
NLP та Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1Яка основна функція tokenization у обробці природної мови?
Яка основна функція tokenization у обробці природної мови?
Відповідь
Tokenization розбиває сирий текст на менші одиниці, які називаються токенами, що можуть бути словами, sub-словами або символами. Цей крок є необхідним, оскільки мовні моделі не можуть напряму обробляти сирий текст. Кожен токен потім перетворюється на числовий ідентифікатор, який модель може обробити.
2Яка основна перевага алгоритму BPE (Byte Pair Encoding) над tokenization на рівні слів?
Яка основна перевага алгоритму BPE (Byte Pair Encoding) над tokenization на рівні слів?
Відповідь
BPE обробляє невідомі слова (out-of-vocabulary), розкладаючи їх на відомі підодиниці. На відміну від tokenization на рівні слів, яка замінює невідомі слова спеціальним токеном [UNK], BPE може представити будь-яке слово як комбінацію sub-слів, присутніх у словнику, що дозволяє узагальнювати на слова, ніколи не бачені під час навчання.
3Яка фундаментальна різниця між WordPiece та BPE для побудови словника?
Яка фундаментальна різниця між WordPiece та BPE для побудови словника?
Відповідь
BPE об'єднує найчастіші пари токенів, тоді як WordPiece вибирає об'єднання, які максимізують правдоподібність навчального корпусу. Таким чином, WordPiece використовує ймовірнісний критерій, а не чисто частотний, що може створювати дещо інші розбиття, потенційно краще пристосовані до фінальної мовної моделі.
Яка основна різниця між статичними word embeddings (Word2Vec) та контекстними embeddings (BERT)?
Які дві задачі pre-training використовує BERT?
+21 питань зі співбесід
Інші теми співбесід Data Science & ML
Основи Python
Об'єктно-орієнтоване програмування Python
Структури даних Python
Основи Git
Основи SQL
Основи NumPy
Основи Pandas
Jupyter & Google Colab
SQL Joins та розширені запити
Просунутий Pandas
Візуалізація з Matplotlib & Seaborn
Інтерактивні візуалізації з Plotly
Описова статистика
Інференційна статистика
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Кероване ML: Регресія
Кероване ML: Класифікація
Дерева рішень та ансамблі
Некероване ML
ML Pipelines та валідація
Часові ряди та прогнозування
Основи Deep Learning
TensorFlow & Keras
CNN та класифікація зображень
RNN та послідовності
Transformers та Attention
GenAI та LangChain
MLOps та розгортання
Опануй Data Science & ML для наступної співбесіди
Отримай доступ до всіх питань, flashcards, технічних тестів, вправ code review та симуляторів співбесід.
Почни безкоштовно