Data Science & ML

NLP y Hugging Face

Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference

24 preguntas de entrevista·
Senior
1

¿Cuál es la función principal de la tokenization en el procesamiento del lenguaje natural?

Respuesta

La tokenization divide el texto bruto en unidades más pequeñas llamadas tokens, que pueden ser palabras, sub-palabras o caracteres. Este paso es esencial porque los modelos de lenguaje no pueden procesar directamente texto bruto. Cada token se convierte luego en un identificador numérico que el modelo puede procesar.

2

¿Cuál es la principal ventaja del algoritmo BPE (Byte Pair Encoding) frente a la tokenization por palabras?

Respuesta

BPE permite gestionar las palabras desconocidas (out-of-vocabulary) descomponiéndolas en sub-unidades conocidas. A diferencia de la tokenization por palabras que reemplaza las palabras desconocidas con un token especial [UNK], BPE puede representar cualquier palabra como una combinación de sub-palabras presentes en el vocabulario, permitiendo así generalizar a palabras nunca vistas durante el entrenamiento.

3

¿Cuál es la diferencia fundamental entre WordPiece y BPE para la construcción del vocabulario?

Respuesta

BPE fusiona los pares de tokens más frecuentes, mientras que WordPiece elige las fusiones que maximizan la verosimilitud del corpus de entrenamiento. WordPiece utiliza así un criterio probabilístico en lugar de puramente frecuencial, lo que puede producir divisiones ligeramente diferentes y potencialmente más adaptadas al modelo de lenguaje final.

4

¿Cuál es la diferencia principal entre los word embeddings estáticos (Word2Vec) y los embeddings contextuales (BERT)?

5

¿Cuáles son las dos tareas de pre-entrenamiento utilizadas por BERT?

+21 preguntas de entrevista

Domina Data Science & ML para tu próxima entrevista

Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.

Empieza gratis