
NLP & Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1Apa fungsi utama tokenization dalam pemrosesan bahasa alami?
Apa fungsi utama tokenization dalam pemrosesan bahasa alami?
Jawaban
Tokenization memecah teks mentah menjadi unit-unit lebih kecil yang disebut token, yang dapat berupa kata, sub-kata, atau karakter. Langkah ini penting karena model bahasa tidak dapat memproses teks mentah secara langsung. Setiap token kemudian dikonversi menjadi pengenal numerik yang dapat diproses oleh model.
2Apa keunggulan utama algoritma BPE (Byte Pair Encoding) dibandingkan tokenization tingkat kata?
Apa keunggulan utama algoritma BPE (Byte Pair Encoding) dibandingkan tokenization tingkat kata?
Jawaban
BPE menangani kata-kata yang tidak dikenal (out-of-vocabulary) dengan mendekomposisinya menjadi sub-unit yang dikenal. Tidak seperti tokenization tingkat kata yang mengganti kata-kata tidak dikenal dengan token khusus [UNK], BPE dapat merepresentasikan kata apa pun sebagai kombinasi sub-kata yang ada dalam kosakata, memungkinkan generalisasi ke kata-kata yang tidak pernah dilihat selama pelatihan.
3Apa perbedaan mendasar antara WordPiece dan BPE untuk konstruksi kosakata?
Apa perbedaan mendasar antara WordPiece dan BPE untuk konstruksi kosakata?
Jawaban
BPE menggabungkan pasangan token yang paling sering muncul, sedangkan WordPiece memilih penggabungan yang memaksimalkan likelihood dari korpus pelatihan. Dengan demikian, WordPiece menggunakan kriteria probabilistik bukan frekuensi murni, yang dapat menghasilkan pemisahan yang sedikit berbeda dan berpotensi lebih cocok untuk model bahasa akhir.
Apa perbedaan utama antara word embeddings statis (Word2Vec) dan embeddings kontekstual (BERT)?
Apa dua tugas pre-training yang digunakan oleh BERT?
+21 pertanyaan wawancara
Topik wawancara Data Science & ML lainnya
Dasar-dasar Python
Pemrograman Berorientasi Objek Python
Struktur Data Python
Dasar-Dasar Git
Dasar-dasar SQL
Dasar-Dasar NumPy
Dasar-dasar Pandas
Jupyter & Google Colab
SQL Joins & Kueri Lanjutan
Pandas Lanjutan
Visualisasi dengan Matplotlib & Seaborn
Visualisasi Interaktif dengan Plotly
Statistik Deskriptif
Statistik Inferensial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Terbimbing: Regresi
ML Terbimbing: Klasifikasi
Pohon Keputusan & Ensemble
ML Tanpa Pengawasan
Pipeline ML & Validasi
Deret Waktu & Peramalan
Dasar-Dasar Deep Learning
TensorFlow & Keras
CNN dan klasifikasi gambar
RNN & Sekuens
Transformers & Attention
GenAI & LangChain
MLOps dan Deployment
Kuasai Data Science & ML untuk wawancara berikutnya
Akses semua pertanyaan, flashcards, tes teknis, latihan code review dan simulator wawancara.
Mulai gratis