Question 1

¿Cuál es la función principal de la tokenization en el procesamiento del lenguaje natural?

Accepted Answer

La tokenization divide el texto bruto en unidades más pequeñas llamadas tokens, que pueden ser palabras, sub-palabras o caracteres. Este paso es esencial porque los modelos de lenguaje no pueden procesar directamente texto bruto. Cada token se convierte luego en un identificador numérico que el modelo puede procesar.

Question 2

¿Cuál es la principal ventaja del algoritmo BPE (Byte Pair Encoding) frente a la tokenization por palabras?

Accepted Answer

BPE permite gestionar las palabras desconocidas (out-of-vocabulary) descomponiéndolas en sub-unidades conocidas. A diferencia de la tokenization por palabras que reemplaza las palabras desconocidas con un token especial [UNK], BPE puede representar cualquier palabra como una combinación de sub-palabras presentes en el vocabulario, permitiendo así generalizar a palabras nunca vistas durante el entrenamiento.

Question 3

¿Cuál es la diferencia fundamental entre WordPiece y BPE para la construcción del vocabulario?

Accepted Answer

BPE fusiona los pares de tokens más frecuentes, mientras que WordPiece elige las fusiones que maximizan la verosimilitud del corpus de entrenamiento. WordPiece utiliza así un criterio probabilístico en lugar de puramente frecuencial, lo que puede producir divisiones ligeramente diferentes y potencialmente más adaptadas al modelo de lenguaje final.

NLP y Hugging Face

¿Cuál es la función principal de la tokenization en el procesamiento del lenguaje natural?

Respuesta

¿Cuál es la principal ventaja del algoritmo BPE (Byte Pair Encoding) frente a la tokenization por palabras?

Respuesta

¿Cuál es la diferencia fundamental entre WordPiece y BPE para la construcción del vocabulario?

Respuesta

¿Cuál es la diferencia principal entre los word embeddings estáticos (Word2Vec) y los embeddings contextuales (BERT)?

¿Cuáles son las dos tareas de pre-entrenamiento utilizadas por BERT?

Otros temas de entrevista Data Science & ML

Fundamentos de Python

Programación Orientada a Objetos en Python

Estructuras de datos en Python

Fundamentos de Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins y consultas avanzadas

Pandas avanzado

Visualización con Matplotlib & Seaborn

Visualizaciones interactivas con Plotly

Estadística descriptiva

Estadística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisado: Regresión

ML Supervisado: Clasificación

Árboles de Decisión y Ensembles

ML No Supervisado

Pipelines ML y Validación

Series Temporales y Pronóstico

Fundamentos de Deep Learning

TensorFlow & Keras

CNN y clasificación de imágenes

RNN y Secuencias

Transformers y Attention

GenAI y LangChain

MLOps y Despliegue

Domina Data Science & ML para tu próxima entrevista