Question 1

Qual é a função principal da tokenization no processamento de linguagem natural?

Accepted Answer

A tokenization divide o texto bruto em unidades menores chamadas tokens, que podem ser palavras, sub-palavras ou caracteres. Esta etapa é essencial porque os modelos de linguagem não conseguem processar diretamente texto bruto. Cada token é então convertido em um identificador numérico que o modelo pode processar.

Question 2

Qual é a principal vantagem do algoritmo BPE (Byte Pair Encoding) sobre a tokenization por palavras?

Accepted Answer

BPE permite lidar com palavras desconhecidas (out-of-vocabulary) decompondo-as em sub-unidades conhecidas. Diferente da tokenization por palavras que substitui palavras desconhecidas por um token especial [UNK], BPE pode representar qualquer palavra como uma combinação de sub-palavras presentes no vocabulário, permitindo assim generalizar para palavras nunca vistas durante o treinamento.

Question 3

Qual é a diferença fundamental entre WordPiece e BPE para a construção do vocabulário?

Accepted Answer

BPE funde os pares de tokens mais frequentes, enquanto WordPiece escolhe as fusões que maximizam a verossimilhança do corpus de treinamento. WordPiece usa assim um critério probabilístico em vez de puramente frequencial, o que pode produzir divisões ligeiramente diferentes e potencialmente mais adaptadas ao modelo de linguagem final.

NLP e Hugging Face

Qual é a função principal da tokenization no processamento de linguagem natural?

Resposta

Qual é a principal vantagem do algoritmo BPE (Byte Pair Encoding) sobre a tokenization por palavras?

Resposta

Qual é a diferença fundamental entre WordPiece e BPE para a construção do vocabulário?

Resposta

Qual é a principal diferença entre word embeddings estáticos (Word2Vec) e embeddings contextuais (BERT)?

Quais são as duas tarefas de pré-treinamento usadas pelo BERT?

Outros temas de entrevista Data Science & ML

Fundamentos de Python

Programação Orientada a Objetos em Python

Estruturas de dados em Python

Fundamentos do Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins e consultas avançadas

Pandas avançado

Visualização com Matplotlib & Seaborn

Visualizações interativas com Plotly

Estatística descritiva

Estatística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisionado: Regressão

ML Supervisionado: Classificação

Árvores de Decisão e Ensembles

ML Não Supervisionado

Pipelines ML e Validação

Séries Temporais e Previsão

Fundamentos de Deep Learning

TensorFlow & Keras

CNN e classificação de imagens

RNN e Sequências

Transformers e Attention

GenAI e LangChain

MLOps e Implantação

Domine Data Science & ML para sua proxima entrevista