[Proyecto] Construyendo un clasificador con el dataset de Iris

Utilicé KNN como modelo de clasificación en lugar de árbol de decisiones. Para la evaluación, apliqué KFold con 5 bloques en lugar del cv=5 simple, ya que KFold permite ver el rendimiento en cada bloque individualmente y detectar si alguno rinde significativamente peor que los demás.

Los resultados mostraron una precisión del 100% en los datos de prueba, pero al aplicar validación cruzada el promedio real fue del 96%, con un bloque que bajó al 90%. Esto me confirmó que el 100% inicial, como dijo el profe en la clase, es falso. Esto es dado el tamaño reducido del set de datos (son solo 150 filas). También me confirmó que la validación cruzada da una imagen más honesta del rendimiento del modelo.

Prueba del desafío.

Hola Jairo, espero que estés bien

¡Qué bueno que estás explorando diferentes enfoques para evaluar tu modelo! Es normal que veas diferencias en la precisión cuando utilizas validación cruzada, especialmente con un conjunto de datos pequeño como el de Iris.

El uso de KFold te ayuda a entender mejor cómo tu modelo podría comportarse en diferentes subconjuntos de datos, lo cual es crucial para evitar sobreajuste y obtener una evaluación más realista del rendimiento del modelo.

Aquí hay algunas cosas a considerar:

Tamaño del conjunto de datos: Como mencionaste, el dataset de Iris es pequeño, lo que puede llevar a variaciones en los resultados de precisión. La validación cruzada es una buena práctica para mitigar este problema.
Normalización de datos: Veo que estás utilizando StandardScaler, lo cual es excelente para KNN, ya que este algoritmo es sensible a las escalas de las características.
Variabilidad en los bloques: Si un bloque está rindiendo significativamente peor, podría ser útil investigar si hay algún patrón en los datos de ese bloque que esté afectando el rendimiento.
Ajuste de hiperparámetros: Considera ajustar los hiperparámetros de KNN, como el número de vecinos, para ver si puedes mejorar la precisión promedio.
Análisis de resultados: Además de la precisión, podrías considerar otras métricas como la matriz de confusión para entender mejor dónde está fallando el modelo.

Espero que estas sugerencias te sean útiles mientras continúas trabajando en tu proyecto. ¡Sigue adelante!

Espero haber ayudado y buenos estudios!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema