Data Science & ML

NLP ve Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 mülakat soruları·
Senior
1

Doğal dil işlemede tokenization'ın ana işlevi nedir?

Cevap

Tokenization, ham metni token adı verilen daha küçük birimlere böler. Bunlar kelimeler, alt kelimeler veya karakterler olabilir. Bu adım, dil modellerinin ham metni doğrudan işleyememesi nedeniyle zorunludur. Her token daha sonra modelin işleyebileceği sayısal bir tanımlayıcıya dönüştürülür.

2

BPE (Byte Pair Encoding) algoritmasının kelime düzeyinde tokenization'a göre temel avantajı nedir?

Cevap

BPE, bilinmeyen kelimeleri (out-of-vocabulary) bilinen alt birimlere ayırarak işler. Bilinmeyen kelimeleri özel [UNK] token'ı ile değiştiren kelime düzeyinde tokenization'ın aksine, BPE herhangi bir kelimeyi kelime dağarcığında bulunan alt kelimelerin bir kombinasyonu olarak temsil edebilir ve eğitim sırasında hiç görülmemiş kelimelere genellemeyi mümkün kılar.

3

Kelime dağarcığı oluşturma açısından WordPiece ile BPE arasındaki temel fark nedir?

Cevap

BPE en sık karşılaşılan token çiftlerini birleştirirken, WordPiece eğitim korpusunun olabilirliğini maksimize eden birleştirmeleri seçer. Böylece WordPiece, sadece frekansa dayalı olmayan olasılıksal bir kriter kullanır ve nihai dil modeline potansiyel olarak daha uygun, biraz farklı bölmeler üretebilir.

4

Statik word embeddings (Word2Vec) ile bağlamsal embeddings (BERT) arasındaki ana fark nedir?

5

BERT tarafından kullanılan iki pre-training görevi nedir?

+21 mülakat soruları

Bir sonraki mülakatın için Data Science & ML'de uzmanlaş

Tüm sorulara, flashcards'a, teknik testlere, code review alıştırmalarına ve mülakat simülatörlerine eriş.

Ücretsiz başla