
NLP 및 Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
24 면접 질문·
Senior
1자연어 처리에서 tokenization의 주요 기능은 무엇입니까?
1
자연어 처리에서 tokenization의 주요 기능은 무엇입니까?
답변
Tokenization은 원시 텍스트를 토큰이라는 더 작은 단위로 분할하며, 이는 단어, 서브워드 또는 문자가 될 수 있습니다. 언어 모델은 원시 텍스트를 직접 처리할 수 없기 때문에 이 단계는 필수적입니다. 각 토큰은 모델이 처리할 수 있는 숫자 식별자로 변환됩니다.
2단어 수준 tokenization과 비교하여 BPE (Byte Pair Encoding) 알고리즘의 주요 장점은 무엇입니까?
2
단어 수준 tokenization과 비교하여 BPE (Byte Pair Encoding) 알고리즘의 주요 장점은 무엇입니까?
답변
BPE는 알 수 없는 단어(out-of-vocabulary)를 알려진 서브 유닛으로 분해하여 처리합니다. 알 수 없는 단어를 특수 [UNK] 토큰으로 대체하는 단어 수준 tokenization과 달리, BPE는 모든 단어를 어휘에 있는 서브워드의 조합으로 표현할 수 있어 훈련 중에 본 적이 없는 단어로 일반화할 수 있습니다.
3어휘 구축에서 WordPiece와 BPE의 근본적인 차이점은 무엇입니까?
3
어휘 구축에서 WordPiece와 BPE의 근본적인 차이점은 무엇입니까?
답변
BPE는 가장 빈번한 토큰 쌍을 병합하는 반면, WordPiece는 훈련 코퍼스의 우도를 최대화하는 병합을 선택합니다. 따라서 WordPiece는 순수한 빈도가 아닌 확률적 기준을 사용하며, 이는 약간 다른 분할을 생성하여 최종 언어 모델에 더 적합할 수 있습니다.
4
정적 word embeddings (Word2Vec)와 컨텍스트 embeddings (BERT)의 주요 차이점은 무엇입니까?
5
BERT가 사용하는 두 가지 사전 학습 작업은 무엇입니까?
+21 면접 질문
기타 Data Science & ML 면접 주제
Python 기초
Junior
25개 질문Python 객체 지향 프로그래밍
Junior
20개 질문Python 데이터 구조
Junior
20개 질문Git 기초
Junior
18개 질문SQL 기초
Junior
20개 질문NumPy 기초
Junior
22개 질문Pandas 기초
Junior
22개 질문Jupyter & Google Colab
Junior
16개 질문SQL Joins 및 고급 쿼리
Mid-Level
22개 질문Pandas 고급
Mid-Level
24개 질문Matplotlib & Seaborn을 활용한 시각화
Mid-Level
20개 질문Plotly로 만드는 인터랙티브 시각화
Mid-Level
18개 질문기술 통계
Mid-Level
20개 질문추론 통계학
Mid-Level
24개 질문Web Scraping
Mid-Level
18개 질문BigQuery & Cloud Data
Mid-Level
18개 질문Feature Engineering
Mid-Level
22개 질문지도 머신러닝: 회귀
Mid-Level
24개 질문지도 머신러닝: 분류
Mid-Level
24개 질문결정 트리 및 앙상블
Mid-Level
24개 질문비지도 ML
Mid-Level
22개 질문ML 파이프라인 및 검증
Mid-Level
22개 질문시계열 및 예측
Mid-Level
22개 질문Deep Learning 기초
Senior
24개 질문TensorFlow & Keras
Senior
22개 질문CNN 및 이미지 분류
Senior
24개 질문RNN 및 시퀀스
Senior
22개 질문Transformers 및 Attention
Senior
24개 질문GenAI 및 LangChain
Senior
24개 질문MLOps 및 배포
Senior
24개 질문