
NLP y Hugging Face
Tokenization, embeddings, BERT, GPT, Hugging Face Transformers, fine-tuning, pipelines, inference
1¿Cuál es la función principal de la tokenization en el procesamiento del lenguaje natural?
¿Cuál es la función principal de la tokenization en el procesamiento del lenguaje natural?
Respuesta
La tokenization divide el texto bruto en unidades más pequeñas llamadas tokens, que pueden ser palabras, sub-palabras o caracteres. Este paso es esencial porque los modelos de lenguaje no pueden procesar directamente texto bruto. Cada token se convierte luego en un identificador numérico que el modelo puede procesar.
2¿Cuál es la principal ventaja del algoritmo BPE (Byte Pair Encoding) frente a la tokenization por palabras?
¿Cuál es la principal ventaja del algoritmo BPE (Byte Pair Encoding) frente a la tokenization por palabras?
Respuesta
BPE permite gestionar las palabras desconocidas (out-of-vocabulary) descomponiéndolas en sub-unidades conocidas. A diferencia de la tokenization por palabras que reemplaza las palabras desconocidas con un token especial [UNK], BPE puede representar cualquier palabra como una combinación de sub-palabras presentes en el vocabulario, permitiendo así generalizar a palabras nunca vistas durante el entrenamiento.
3¿Cuál es la diferencia fundamental entre WordPiece y BPE para la construcción del vocabulario?
¿Cuál es la diferencia fundamental entre WordPiece y BPE para la construcción del vocabulario?
Respuesta
BPE fusiona los pares de tokens más frecuentes, mientras que WordPiece elige las fusiones que maximizan la verosimilitud del corpus de entrenamiento. WordPiece utiliza así un criterio probabilístico en lugar de puramente frecuencial, lo que puede producir divisiones ligeramente diferentes y potencialmente más adaptadas al modelo de lenguaje final.
¿Cuál es la diferencia principal entre los word embeddings estáticos (Word2Vec) y los embeddings contextuales (BERT)?
¿Cuáles son las dos tareas de pre-entrenamiento utilizadas por BERT?
+21 preguntas de entrevista
Otros temas de entrevista Data Science & ML
Fundamentos de Python
Programación Orientada a Objetos en Python
Estructuras de datos en Python
Fundamentos de Git
Fundamentos de SQL
Fundamentos de NumPy
Fundamentos de Pandas
Jupyter & Google Colab
SQL Joins y consultas avanzadas
Pandas avanzado
Visualización con Matplotlib & Seaborn
Visualizaciones interactivas con Plotly
Estadística descriptiva
Estadística inferencial
Web Scraping
BigQuery & Cloud Data
Feature Engineering
ML Supervisado: Regresión
ML Supervisado: Clasificación
Árboles de Decisión y Ensembles
ML No Supervisado
Pipelines ML y Validación
Series Temporales y Pronóstico
Fundamentos de Deep Learning
TensorFlow & Keras
CNN y clasificación de imágenes
RNN y Secuencias
Transformers y Attention
GenAI y LangChain
MLOps y Despliegue
Domina Data Science & ML para tu próxima entrevista
Accede a todas las preguntas, flashcards, tests técnicos, ejercicios de code review y simuladores de entrevista.
Empieza gratis