Data Science & ML

NLP e Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 perguntas de entrevista·
Senior
1

Qual é a função principal da tokenization no processamento de linguagem natural?

Resposta

A tokenization divide o texto bruto em unidades menores chamadas tokens, que podem ser palavras, sub-palavras ou caracteres. Esta etapa é essencial porque os modelos de linguagem não conseguem processar diretamente texto bruto. Cada token é então convertido em um identificador numérico que o modelo pode processar.

2

Qual é a principal vantagem do algoritmo BPE (Byte Pair Encoding) sobre a tokenization por palavras?

Resposta

BPE permite lidar com palavras desconhecidas (out-of-vocabulary) decompondo-as em sub-unidades conhecidas. Diferente da tokenization por palavras que substitui palavras desconhecidas por um token especial [UNK], BPE pode representar qualquer palavra como uma combinação de sub-palavras presentes no vocabulário, permitindo assim generalizar para palavras nunca vistas durante o treinamento.

3

Qual é a diferença fundamental entre WordPiece e BPE para a construção do vocabulário?

Resposta

BPE funde os pares de tokens mais frequentes, enquanto WordPiece escolhe as fusões que maximizam a verossimilhança do corpus de treinamento. WordPiece usa assim um critério probabilístico em vez de puramente frequencial, o que pode produzir divisões ligeiramente diferentes e potencialmente mais adaptadas ao modelo de linguagem final.

4

Qual é a principal diferença entre word embeddings estáticos (Word2Vec) e embeddings contextuais (BERT)?

5

Quais são as duas tarefas de pré-treinamento usadas pelo BERT?

+21 perguntas de entrevista

Domine Data Science & ML para sua proxima entrevista

Acesse todas as perguntas, flashcards, testes tecnicos, exercicios de code review e simuladores de entrevista.

Comece gratis