Question 1

¿Qué es un decision tree en Machine Learning?

Accepted Answer

Un decision tree es un modelo de Machine Learning que realiza predicciones dividiendo los datos según reglas de decisión jerárquicas. Cada nodo interno representa una prueba sobre una feature, cada rama representa el resultado de la prueba, y cada hoja representa una predicción final. Este modelo es intuitivo y fácilmente interpretable, lo que lo convierte en una excelente opción para entender los factores que influyen en una decisión.

Question 2

¿Qué criterio se usa por defecto en scikit-learn para medir la calidad de un split en un árbol de clasificación?

Accepted Answer

El índice de Gini es el criterio por defecto en scikit-learn para árboles de clasificación. Mide la impureza de un nodo calculando la probabilidad de que un elemento sea clasificado erróneamente si se clasifica aleatoriamente según la distribución de clases. Un Gini de 0 significa un nodo puro (una sola clase), mientras que un Gini más alto indica mayor diversidad de clases.

Question 3

¿Cuál es la principal diferencia entre el índice de Gini y la entropía como criterios de split?

Accepted Answer

El índice de Gini y la entropía generalmente producen árboles muy similares, pero Gini es ligeramente más rápido de calcular ya que no requiere cálculos logarítmicos. La entropía, basada en la teoría de la información, a veces puede crear splits ligeramente más equilibrados. En la práctica, la elección entre ambos raramente tiene un impacto significativo en el rendimiento del modelo.

Árboles de Decisión y Ensembles

¿Qué es un decision tree en Machine Learning?

Respuesta

¿Qué criterio se usa por defecto en scikit-learn para medir la calidad de un split en un árbol de clasificación?

Respuesta

¿Cuál es la principal diferencia entre el índice de Gini y la entropía como criterios de split?

Respuesta

¿Qué es el pruning en el contexto de los decision trees?

¿Qué hiperparámetro controla la profundidad máxima de un decision tree en scikit-learn?

Otros temas de entrevista Data Science & ML

Fundamentos de Python

Programación Orientada a Objetos en Python

Estructuras de datos en Python

Fundamentos de Git

Fundamentos de SQL

Fundamentos de NumPy

Fundamentos de Pandas

Jupyter & Google Colab

SQL Joins y consultas avanzadas

Pandas avanzado

Visualización con Matplotlib & Seaborn

Visualizaciones interactivas con Plotly

Estadística descriptiva

Estadística inferencial

Web Scraping

BigQuery & Cloud Data

Feature Engineering

ML Supervisado: Regresión

ML Supervisado: Clasificación

ML No Supervisado

Pipelines ML y Validación

Series Temporales y Pronóstico

Fundamentos de Deep Learning

TensorFlow & Keras

CNN y clasificación de imágenes

RNN y Secuencias

Transformers y Attention

NLP y Hugging Face

GenAI y LangChain

MLOps y Despliegue

Domina Data Science & ML para tu próxima entrevista