
NLP e Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1Qual é a função principal da tokenization no processamento de linguagem natural?
Qual é a função principal da tokenization no processamento de linguagem natural?
Resposta
A tokenization divide o texto bruto em unidades menores chamadas tokens, que podem ser palavras, sub-palavras ou caracteres. Esta etapa é essencial porque os modelos de linguagem não conseguem processar diretamente texto bruto. Cada token é então convertido em um identificador numérico que o modelo pode processar.
2Qual é a principal vantagem do algoritmo BPE (Byte Pair Encoding) sobre a tokenization por palavras?
Qual é a principal vantagem do algoritmo BPE (Byte Pair Encoding) sobre a tokenization por palavras?
Resposta
BPE permite lidar com palavras desconhecidas (out-of-vocabulary) decompondo-as em sub-unidades conhecidas. Diferente da tokenization por palavras que substitui palavras desconhecidas por um token especial [UNK], BPE pode representar qualquer palavra como uma combinação de sub-palavras presentes no vocabulário, permitindo assim generalizar para palavras nunca vistas durante o treinamento.
3Qual é a diferença fundamental entre WordPiece e BPE para a construção do vocabulário?
Qual é a diferença fundamental entre WordPiece e BPE para a construção do vocabulário?
Resposta
BPE funde os pares de tokens mais frequentes, enquanto WordPiece escolhe as fusões que maximizam a verossimilhança do corpus de treinamento. WordPiece usa assim um critério probabilístico em vez de puramente frequencial, o que pode produzir divisões ligeiramente diferentes e potencialmente mais adaptadas ao modelo de linguagem final.
Qual é a principal diferença entre word embeddings estáticos (Word2Vec) e embeddings contextuais (BERT)?
Quais são as duas tarefas de pré-treinamento usadas pelo BERT?
+21 perguntas de entrevista
Outros temas de entrevista Data Science & ML
Fundamentos de Python
Programação Orientada a Objetos em Python
Estruturas de dados em Python
Fundamentos do Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins e consultas avançadas
Pandas avançado
Visualização com Matplotlib & Seaborn
Visualizações interativas com Plotly
Estatística descritiva
Estatística inferencial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisionado: Regressão
ML Supervisionado: Classificação
Árvores de Decisão e Ensembles
ML Não Supervisionado
Pipelines ML e Validação
Séries Temporais e Previsão
Fundamentos de Deep Learning
TensorFlow & Keras
CNN e classificação de imagens
RNN e Sequências
Transformers e Attention
GenAI e LangChain
MLOps e Implantação
Domine Data Science & ML para sua proxima entrevista
Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.
Comece gratis