Question 1

자연어 처리에서 tokenization의 주요 기능은 무엇입니까?

Accepted Answer

Tokenization은 원시 텍스트를 토큰이라는 더 작은 단위로 분할하며, 이는 단어, 서브워드 또는 문자가 될 수 있습니다. 언어 모델은 원시 텍스트를 직접 처리할 수 없기 때문에 이 단계는 필수적입니다. 각 토큰은 모델이 처리할 수 있는 숫자 식별자로 변환됩니다.

Question 2

단어 수준 tokenization과 비교하여 BPE (Byte Pair Encoding) 알고리즘의 주요 장점은 무엇입니까?

Accepted Answer

BPE는 알 수 없는 단어(out-of-vocabulary)를 알려진 서브 유닛으로 분해하여 처리합니다. 알 수 없는 단어를 특수 [UNK] 토큰으로 대체하는 단어 수준 tokenization과 달리, BPE는 모든 단어를 어휘에 있는 서브워드의 조합으로 표현할 수 있어 훈련 중에 본 적이 없는 단어로 일반화할 수 있습니다.

Question 3

어휘 구축에서 WordPiece와 BPE의 근본적인 차이점은 무엇입니까?

Accepted Answer

BPE는 가장 빈번한 토큰 쌍을 병합하는 반면, WordPiece는 훈련 코퍼스의 우도를 최대화하는 병합을 선택합니다. 따라서 WordPiece는 순수한 빈도가 아닌 확률적 기준을 사용하며, 이는 약간 다른 분할을 생성하여 최종 언어 모델에 더 적합할 수 있습니다.

NLP 및 Hugging Face

자연어 처리에서 tokenization의 주요 기능은 무엇입니까?

답변

단어 수준 tokenization과 비교하여 BPE (Byte Pair Encoding) 알고리즘의 주요 장점은 무엇입니까?

답변

어휘 구축에서 WordPiece와 BPE의 근본적인 차이점은 무엇입니까?

답변

정적 word embeddings (Word2Vec)와 컨텍스트 embeddings (BERT)의 주요 차이점은 무엇입니까?

BERT가 사용하는 두 가지 사전 학습 작업은 무엇입니까?

기타 Data Science & ML 면접 주제

Python 기초

Python 객체 지향 프로그래밍

Python 데이터 구조

Git 기초

SQL 기초

NumPy 기초

Pandas 기초

Jupyter & Google Colab

SQL Joins 및 고급 쿼리

Pandas 고급

Matplotlib & Seaborn을 활용한 시각화

Plotly로 만드는 인터랙티브 시각화

기술 통계

추론 통계학

Web Scraping

BigQuery & Cloud Data

Feature Engineering

지도 머신러닝: 회귀

지도 머신러닝: 분류

결정 트리 및 앙상블

비지도 ML

ML 파이프라인 및 검증

시계열 및 예측

Deep Learning 기초

TensorFlow & Keras

CNN 및 이미지 분류

RNN 및 시퀀스

Transformers 및 Attention

GenAI 및 LangChain

MLOps 및 배포

다음 면접을 위해 Data Science & ML을 마스터하세요