Question 1

Apa fungsi utama tokenization dalam pemrosesan bahasa alami?

Accepted Answer

Tokenization memecah teks mentah menjadi unit-unit lebih kecil yang disebut token, yang dapat berupa kata, sub-kata, atau karakter. Langkah ini penting karena model bahasa tidak dapat memproses teks mentah secara langsung. Setiap token kemudian dikonversi menjadi pengenal numerik yang dapat diproses oleh model.

Question 2

Apa keunggulan utama algoritma BPE (Byte Pair Encoding) dibandingkan tokenization tingkat kata?

Accepted Answer

BPE menangani kata-kata yang tidak dikenal (out-of-vocabulary) dengan mendekomposisinya menjadi sub-unit yang dikenal. Tidak seperti tokenization tingkat kata yang mengganti kata-kata tidak dikenal dengan token khusus [UNK], BPE dapat merepresentasikan kata apa pun sebagai kombinasi sub-kata yang ada dalam kosakata, memungkinkan generalisasi ke kata-kata yang tidak pernah dilihat selama pelatihan.

Question 3

Apa perbedaan mendasar antara WordPiece dan BPE untuk konstruksi kosakata?

Accepted Answer

BPE menggabungkan pasangan token yang paling sering muncul, sedangkan WordPiece memilih penggabungan yang memaksimalkan likelihood dari korpus pelatihan. Dengan demikian, WordPiece menggunakan kriteria probabilistik bukan frekuensi murni, yang dapat menghasilkan pemisahan yang sedikit berbeda dan berpotensi lebih cocok untuk model bahasa akhir.

NLP & Hugging Face

Apa fungsi utama tokenization dalam pemrosesan bahasa alami?

Jawaban

Apa keunggulan utama algoritma BPE (Byte Pair Encoding) dibandingkan tokenization tingkat kata?

Jawaban

Apa perbedaan mendasar antara WordPiece dan BPE untuk konstruksi kosakata?

Jawaban

Apa perbedaan utama antara word embeddings statis (Word2Vec) dan embeddings kontekstual (BERT)?

Apa dua tugas pre-training yang digunakan oleh BERT?

Topik wawancara Data Science & ML lainnya

Dasar-dasar Python

Pemrograman Berorientasi Objek Python

Struktur Data Python

Dasar-Dasar Git

Dasar-dasar SQL

Dasar-Dasar NumPy

Dasar-dasar Pandas

Jupyter & Google Colab

SQL Joins & Kueri Lanjutan

Pandas Lanjutan

Visualisasi dengan Matplotlib & Seaborn

Visualisasi Interaktif dengan Plotly

Statistik Deskriptif

Statistik Inferensial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Terbimbing: Regresi

ML Terbimbing: Klasifikasi

Pohon Keputusan & Ensemble

ML Tanpa Pengawasan

Pipeline ML & Validasi

Deret Waktu & Peramalan

Dasar-Dasar Deep Learning

TensorFlow & Keras

CNN dan klasifikasi gambar

RNN & Sekuens

Transformers & Attention

GenAI & LangChain

MLOps dan Deployment

Kuasai Data Science & ML untuk wawancara berikutnya