Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

10 Desafío: construyendo un segundo modelo

Para evitar que el modelo se ajuste demasiado a los datos de entrenamiento, debemos prestar atención a parámetros como n_estimators (número de árboles) y max_depth (profundidad máxima).


from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay

# Instanciamos el modelo con parámetros para controlar el sobreajuste
# n_estimators=100 es el estándar; max_depth evita árboles infinitos
rf_model = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42, class_weight='balanced')

# Entrenamos con el conjunto de entrenamiento
rf_model.fit(X_train, y_train)

# Realizamos las predicciones
y_pred_rf = rf_model.predict(X_test)

Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad

Visualización de la Matriz de Confusión

Es fundamental visualizar cuántos de esos 939 errores (Falsos Negativos) que vimos en el ejemplo anterior logra rescatar el Random Forest.


# matriz para Random Forest
cm_rf = confusion_matrix(y_test, y_pred_rf)
disp = ConfusionMatrixDisplay(confusion_matrix=cm_rf, display_labels=['Cumplidor', 'Moroso'])
disp.plot(cmap='Blues')

Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad

1 respuesta

Hola César, espero que estés bien

Parece que estás en el camino correcto al construir un modelo de Random Forest y evaluarlo con precisión y una matriz de confusión. Aquí tienes algunos consejos para asegurarte de que tu modelo esté bien ajustado y para interpretar los resultados:

  1. Parámetros del Modelo: Ya has ajustado n_estimators y max_depth, lo cual es excelente para controlar el sobreajuste. Puedes experimentar con otros parámetros como min_samples_split y min_samples_leaf para ver si mejoran el rendimiento.

  2. Interpretación de la Matriz de Confusión:

    • Verdaderos Positivos (VP): Son los casos en los que el modelo predijo correctamente la clase "Moroso".
    • Falsos Negativos (FN): Son los casos donde el modelo predijo "Cumplidor" pero en realidad eran "Moroso". Reducir este número es crucial si el costo de no detectar un "Moroso" es alto.
    • Falsos Positivos (FP): Predicciones incorrectas de "Moroso" cuando en realidad eran "Cumplidor".
    • Verdaderos Negativos (VN): Predicciones correctas de "Cumplidor".
  3. Comparación con Árbol de Decisión: Según la tabla, el Random Forest debería ofrecer una precisión más robusta y ser más resistente al sobreajuste. Compara estos resultados con los del árbol de decisión para ver si realmente estás obteniendo un mejor rendimiento.

  4. Visualización y Ajuste: Si observas que el modelo aún tiene un número considerable de errores, considera ajustar más parámetros o incluso probar técnicas de preprocesamiento de datos, como la normalización o el balanceo de clases.

Espero que estos consejos te ayuden a mejorar y entender mejor tu modelo. ¡Bons estudios!