Question 1

Doğal dil işlemede tokenization'ın ana işlevi nedir?

Accepted Answer

Tokenization, ham metni token adı verilen daha küçük birimlere böler. Bunlar kelimeler, alt kelimeler veya karakterler olabilir. Bu adım, dil modellerinin ham metni doğrudan işleyememesi nedeniyle zorunludur. Her token daha sonra modelin işleyebileceği sayısal bir tanımlayıcıya dönüştürülür.

Question 2

BPE (Byte Pair Encoding) algoritmasının kelime düzeyinde tokenization'a göre temel avantajı nedir?

Accepted Answer

BPE, bilinmeyen kelimeleri (out-of-vocabulary) bilinen alt birimlere ayırarak işler. Bilinmeyen kelimeleri özel [UNK] token'ı ile değiştiren kelime düzeyinde tokenization'ın aksine, BPE herhangi bir kelimeyi kelime dağarcığında bulunan alt kelimelerin bir kombinasyonu olarak temsil edebilir ve eğitim sırasında hiç görülmemiş kelimelere genellemeyi mümkün kılar.

Question 3

Kelime dağarcığı oluşturma açısından WordPiece ile BPE arasındaki temel fark nedir?

Accepted Answer

BPE en sık karşılaşılan token çiftlerini birleştirirken, WordPiece eğitim korpusunun olabilirliğini maksimize eden birleştirmeleri seçer. Böylece WordPiece, sadece frekansa dayalı olmayan olasılıksal bir kriter kullanır ve nihai dil modeline potansiyel olarak daha uygun, biraz farklı bölmeler üretebilir.

NLP ve Hugging Face

Doğal dil işlemede tokenization'ın ana işlevi nedir?

Cevap

BPE (Byte Pair Encoding) algoritmasının kelime düzeyinde tokenization'a göre temel avantajı nedir?

Cevap

Kelime dağarcığı oluşturma açısından WordPiece ile BPE arasındaki temel fark nedir?

Cevap

Statik word embeddings (Word2Vec) ile bağlamsal embeddings (BERT) arasındaki ana fark nedir?

BERT tarafından kullanılan iki pre-training görevi nedir?

Diğer Data Science & ML mülakat konuları

Python Temelleri

Python Nesne Yönelimli Programlama

Python Veri Yapıları

Git Temelleri

SQL Temelleri

NumPy Temelleri

Pandas Temelleri

Jupyter & Google Colab

SQL Joins ve Gelişmiş Sorgular

İleri Pandas

Matplotlib & Seaborn ile Görselleştirme

Plotly ile Etkileşimli Görselleştirmeler

Tanımlayıcı İstatistik

Çıkarımsal İstatistik

Web Scraping

BigQuery & Cloud Data

Feature Engineering

Denetimli ML: Regresyon

Denetimli ML: Sınıflandırma

Karar Ağaçları ve Topluluk Yöntemleri

Denetimsiz ML

ML Pipeline'ları & Doğrulama

Zaman Serileri & Tahminleme

Deep Learning Temelleri

TensorFlow & Keras

CNN ve görüntü sınıflandırma

RNN ve Diziler

Transformers ve Attention

GenAI ve LangChain

MLOps ve Dağıtım

Bir sonraki mülakatın için Data Science & ML'de uzmanlaş