
NLP i Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1Jaka jest główna funkcja tokenization w przetwarzaniu języka naturalnego?
Jaka jest główna funkcja tokenization w przetwarzaniu języka naturalnego?
Odpowiedź
Tokenization dzieli surowy tekst na mniejsze jednostki zwane tokenami, które mogą być słowami, sub-słowami lub znakami. Ten krok jest niezbędny, ponieważ modele językowe nie mogą bezpośrednio przetwarzać surowego tekstu. Każdy token jest następnie konwertowany na identyfikator numeryczny, który model może przetwarzać.
2Jaka jest główna zaleta algorytmu BPE (Byte Pair Encoding) w porównaniu z tokenization na poziomie słów?
Jaka jest główna zaleta algorytmu BPE (Byte Pair Encoding) w porównaniu z tokenization na poziomie słów?
Odpowiedź
BPE obsługuje nieznane słowa (out-of-vocabulary) poprzez dekomponowanie ich na znane podjednostki. W przeciwieństwie do tokenization na poziomie słów, która zastępuje nieznane słowa specjalnym tokenem [UNK], BPE może reprezentować dowolne słowo jako kombinację sub-słów obecnych w słowniku, umożliwiając generalizację do słów nigdy nie widzianych podczas treningu.
3Jaka jest fundamentalna różnica między WordPiece a BPE w konstrukcji słownika?
Jaka jest fundamentalna różnica między WordPiece a BPE w konstrukcji słownika?
Odpowiedź
BPE łączy najczęściej występujące pary tokenów, podczas gdy WordPiece wybiera fuzje, które maksymalizują wiarygodność korpusu treningowego. WordPiece używa zatem kryterium probabilistycznego, a nie czysto częstotliwościowego, co może produkować nieco inne podziały, potencjalnie lepiej dopasowane do końcowego modelu językowego.
Jaka jest główna różnica między statycznymi word embeddings (Word2Vec) a kontekstowymi embeddings (BERT)?
Jakie są dwa zadania pre-training używane przez BERT?
+21 pytań z rozmów
Inne tematy rekrutacyjne Data Science & ML
Podstawy Pythona
Programowanie Obiektowe w Pythonie
Struktury danych Python
Podstawy Git
Podstawy SQL
Podstawy NumPy
Podstawy Pandas
Jupyter & Google Colab
SQL Joins i zaawansowane zapytania
Zaawansowany Pandas
Wizualizacja z Matplotlib & Seaborn
Interaktywne wizualizacje z Plotly
Statystyka opisowa
Statystyka inferencyjna
Web Scraping
BigQuery & Cloud Data
Feature Engineering
Uczenie nadzorowane: Regresja
Uczenie nadzorowane: Klasyfikacja
Drzewa Decyzyjne i Ensembles
ML Nienadzorowane
Pipeline'y ML i walidacja
Szeregi czasowe i prognozowanie
Podstawy Deep Learning
TensorFlow & Keras
CNN i klasyfikacja obrazów
RNN i Sekwencje
Transformers i Attention
GenAI i LangChain
MLOps i Wdrożenie
Opanuj Data Science & ML na następną rozmowę
Uzyskaj dostęp do wszystkich pytań, flashcards, testów technicznych, ćwiczeń code review i symulatorów rozmów.
Zacznij za darmo