1
respuesta

[Duda] Balanceo del target

Buenas a todos:

  • ¿Cómo funcionan drow_sample y up_sample?

  • ¿Porqué para el balanceo con up_sample aumentaron los registros o los datos?

1 respuesta

¡Hola Camila!

Para entender cómo funcionan down_sample y up_sample, primero debemos entender qué es el balanceo de datos. En el contexto del análisis de datos en la nube, el balanceo se refiere a igualar la cantidad de casos positivos y negativos en un conjunto de datos. Esto es importante porque si hay una gran diferencia en la cantidad de casos positivos y negativos, el modelo de machine learning puede sesgarse hacia la clase dominante y no aprender correctamente de la clase minoritaria.

El down_sample implica eliminar filas de la clase mayoritaria para igualar la cantidad de casos con la clase minoritaria. En el caso que mencionas, se eliminan filas de los casos en los cuales no se presenta el riesgo de enfermedad coronaria hasta que quede un número igual de casos positivos y negativos. Sin embargo, esta opción no es recomendable ya que se pierden datos y en general, mientras más datos tenga el modelo, mejor será su capacidad de generalización.

Por otro lado, el up_sample implica generar nuevos valores para igualar la cantidad de casos con la clase minoritaria. En tu caso, se generan nuevos valores basados en las observaciones de los casos en los cuales sí hay riesgo de enfermedad coronaria en los próximos 10 años. Esto hace que el conjunto de datos quede balanceado, es decir, con la misma cantidad de casos positivos y negativos.

En resumen, el down_sample reduce la cantidad de datos de la clase mayoritaria, mientras que el up_sample aumenta la cantidad de datos de la clase minoritaria. En tu caso, al utilizar el up_sample, se aumentaron los registros o datos para igualar la cantidad de casos positivos y negativos.

Si este post te ayudó, por favor, marca como solucionado ✓.