Question 1

Jaka jest główna funkcja tokenization w przetwarzaniu języka naturalnego?

Accepted Answer

Tokenization dzieli surowy tekst na mniejsze jednostki zwane tokenami, które mogą być słowami, sub-słowami lub znakami. Ten krok jest niezbędny, ponieważ modele językowe nie mogą bezpośrednio przetwarzać surowego tekstu. Każdy token jest następnie konwertowany na identyfikator numeryczny, który model może przetwarzać.

Question 2

Jaka jest główna zaleta algorytmu BPE (Byte Pair Encoding) w porównaniu z tokenization na poziomie słów?

Accepted Answer

BPE obsługuje nieznane słowa (out-of-vocabulary) poprzez dekomponowanie ich na znane podjednostki. W przeciwieństwie do tokenization na poziomie słów, która zastępuje nieznane słowa specjalnym tokenem [UNK], BPE może reprezentować dowolne słowo jako kombinację sub-słów obecnych w słowniku, umożliwiając generalizację do słów nigdy nie widzianych podczas treningu.

Question 3

Jaka jest fundamentalna różnica między WordPiece a BPE w konstrukcji słownika?

Accepted Answer

BPE łączy najczęściej występujące pary tokenów, podczas gdy WordPiece wybiera fuzje, które maksymalizują wiarygodność korpusu treningowego. WordPiece używa zatem kryterium probabilistycznego, a nie czysto częstotliwościowego, co może produkować nieco inne podziały, potencjalnie lepiej dopasowane do końcowego modelu językowego.

NLP i Hugging Face

Jaka jest główna funkcja tokenization w przetwarzaniu języka naturalnego?

Odpowiedź

Jaka jest główna zaleta algorytmu BPE (Byte Pair Encoding) w porównaniu z tokenization na poziomie słów?

Odpowiedź

Jaka jest fundamentalna różnica między WordPiece a BPE w konstrukcji słownika?

Odpowiedź

Jaka jest główna różnica między statycznymi word embeddings (Word2Vec) a kontekstowymi embeddings (BERT)?

Jakie są dwa zadania pre-training używane przez BERT?

Inne tematy rekrutacyjne Data Science & ML

Podstawy Pythona

Programowanie Obiektowe w Pythonie

Struktury danych Python

Podstawy Git

Podstawy SQL

Podstawy NumPy

Podstawy Pandas

Jupyter & Google Colab

SQL Joins i zaawansowane zapytania

Zaawansowany Pandas

Wizualizacja z Matplotlib & Seaborn

Interaktywne wizualizacje z Plotly

Statystyka opisowa

Statystyka inferencyjna

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Uczenie nadzorowane: Regresja

Uczenie nadzorowane: Klasyfikacja

Drzewa Decyzyjne i Ensembles

ML Nienadzorowane

Pipeline'y ML i walidacja

Szeregi czasowe i prognozowanie

Podstawy Deep Learning

TensorFlow & Keras

CNN i klasyfikacja obrazów

RNN i Sekwencje

Transformers i Attention

GenAI i LangChain

MLOps i Wdrożenie

Opanuj Data Science & ML na następną rozmowę