Data Science & ML

NLP & Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 pertanyaan wawancaraยท
Senior
1

Apa fungsi utama tokenization dalam pemrosesan bahasa alami?

Jawaban

Tokenization memecah teks mentah menjadi unit-unit lebih kecil yang disebut token, yang dapat berupa kata, sub-kata, atau karakter. Langkah ini penting karena model bahasa tidak dapat memproses teks mentah secara langsung. Setiap token kemudian dikonversi menjadi pengenal numerik yang dapat diproses oleh model.

2

Apa keunggulan utama algoritma BPE (Byte Pair Encoding) dibandingkan tokenization tingkat kata?

Jawaban

BPE menangani kata-kata yang tidak dikenal (out-of-vocabulary) dengan mendekomposisinya menjadi sub-unit yang dikenal. Tidak seperti tokenization tingkat kata yang mengganti kata-kata tidak dikenal dengan token khusus [UNK], BPE dapat merepresentasikan kata apa pun sebagai kombinasi sub-kata yang ada dalam kosakata, memungkinkan generalisasi ke kata-kata yang tidak pernah dilihat selama pelatihan.

3

Apa perbedaan mendasar antara WordPiece dan BPE untuk konstruksi kosakata?

Jawaban

BPE menggabungkan pasangan token yang paling sering muncul, sedangkan WordPiece memilih penggabungan yang memaksimalkan likelihood dari korpus pelatihan. Dengan demikian, WordPiece menggunakan kriteria probabilistik bukan frekuensi murni, yang dapat menghasilkan pemisahan yang sedikit berbeda dan berpotensi lebih cocok untuk model bahasa akhir.

4

Apa perbedaan utama antara word embeddings statis (Word2Vec) dan embeddings kontekstual (BERT)?

5

Apa dua tugas pre-training yang digunakan oleh BERT?

+21 pertanyaan wawancara

Kuasai Data Science & ML untuk wawancara berikutnya

Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.

Mulai gratis