1
respuesta

[Duda] Target

Buenas a todos:

¿Cómo afectarían los ceros de la columna "riesgo_eac_decada" al balancear el target?

1 respuesta

¡Hola Camila!

Sobre tu duda sobre cómo afectarían los ceros en la columna "riesgo_eac_decada" al balancear el target, es importante tener en cuenta que los ceros en esa columna representan un alto porcentaje de la muestra, lo que indica un desbalance en los datos.

El desbalance en el target puede ser problemático a la hora de entrenar un modelo de machine learning, ya que puede sesgar los resultados y afectar la precisión del modelo. Para solucionar este problema, es recomendable aplicar técnicas de balanceo de datos, como el undersampling o el oversampling.

El undersampling consiste en reducir la cantidad de muestras de la clase mayoritaria (en este caso, los ceros) para igualarla a la cantidad de muestras de la clase minoritaria. Por otro lado, el oversampling implica aumentar la cantidad de muestras de la clase minoritaria para igualarla a la cantidad de muestras de la clase mayoritaria.

Existen diferentes métodos para realizar el undersampling y el oversampling, como el Random UnderSampler y el SMOTE (Synthetic Minority Over-sampling Technique). Estos métodos te permitirán balancear tus datos y obtener resultados más precisos en tu modelo de machine learning.

Si este post te ayudó, por favor, marca como solucionado ✓.