Data Science & ML

NLP i Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 pytań z rozmów·
Senior
1

Jaka jest główna funkcja tokenization w przetwarzaniu języka naturalnego?

Odpowiedź

Tokenization dzieli surowy tekst na mniejsze jednostki zwane tokenami, które mogą być słowami, sub-słowami lub znakami. Ten krok jest niezbędny, ponieważ modele językowe nie mogą bezpośrednio przetwarzać surowego tekstu. Każdy token jest następnie konwertowany na identyfikator numeryczny, który model może przetwarzać.

2

Jaka jest główna zaleta algorytmu BPE (Byte Pair Encoding) w porównaniu z tokenization na poziomie słów?

Odpowiedź

BPE obsługuje nieznane słowa (out-of-vocabulary) poprzez dekomponowanie ich na znane podjednostki. W przeciwieństwie do tokenization na poziomie słów, która zastępuje nieznane słowa specjalnym tokenem [UNK], BPE może reprezentować dowolne słowo jako kombinację sub-słów obecnych w słowniku, umożliwiając generalizację do słów nigdy nie widzianych podczas treningu.

3

Jaka jest fundamentalna różnica między WordPiece a BPE w konstrukcji słownika?

Odpowiedź

BPE łączy najczęściej występujące pary tokenów, podczas gdy WordPiece wybiera fuzje, które maksymalizują wiarygodność korpusu treningowego. WordPiece używa zatem kryterium probabilistycznego, a nie czysto częstotliwościowego, co może produkować nieco inne podziały, potencjalnie lepiej dopasowane do końcowego modelu językowego.

4

Jaka jest główna różnica między statycznymi word embeddings (Word2Vec) a kontekstowymi embeddings (BERT)?

5

Jakie są dwa zadania pre-training używane przez BERT?

+21 pytań z rozmów

Opanuj Data Science & ML na następną rozmowę

Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.

Zacznij za darmo