Data Science & ML

NLP 및 Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 면접 질문·
Senior
1

자연어 처리에서 tokenization의 주요 기능은 무엇입니까?

답변

Tokenization은 원시 텍스트를 토큰이라는 더 작은 단위로 분할하며, 이는 단어, 서브워드 또는 문자가 될 수 있습니다. 언어 모델은 원시 텍스트를 직접 처리할 수 없기 때문에 이 단계는 필수적입니다. 각 토큰은 모델이 처리할 수 있는 숫자 식별자로 변환됩니다.

2

단어 수준 tokenization과 비교하여 BPE (Byte Pair Encoding) 알고리즘의 주요 장점은 무엇입니까?

답변

BPE는 알 수 없는 단어(out-of-vocabulary)를 알려진 서브 유닛으로 분해하여 처리합니다. 알 수 없는 단어를 특수 [UNK] 토큰으로 대체하는 단어 수준 tokenization과 달리, BPE는 모든 단어를 어휘에 있는 서브워드의 조합으로 표현할 수 있어 훈련 중에 본 적이 없는 단어로 일반화할 수 있습니다.

3

어휘 구축에서 WordPiece와 BPE의 근본적인 차이점은 무엇입니까?

답변

BPE는 가장 빈번한 토큰 쌍을 병합하는 반면, WordPiece는 훈련 코퍼스의 우도를 최대화하는 병합을 선택합니다. 따라서 WordPiece는 순수한 빈도가 아닌 확률적 기준을 사용하며, 이는 약간 다른 분할을 생성하여 최종 언어 모델에 더 적합할 수 있습니다.

4

정적 word embeddings (Word2Vec)와 컨텍스트 embeddings (BERT)의 주요 차이점은 무엇입니까?

5

BERT가 사용하는 두 가지 사전 학습 작업은 무엇입니까?

+21 면접 질문

다음 면접을 위해 Data Science & ML을 마스터하세요

모든 질문, flashcards, 기술 테스트, 코드 리뷰 연습, 면접 시뮬레이터에 접근하세요.

무료로 시작하기