Solucionado (ver solución)
Solucionado
(ver solución)
1
respuesta

Duda del Oversampling para otros tipos de Variables

Hacer el Oversampling a la variable "Churn" cuando es igual a 1 en este caso, entiendo que facilita el trabajo al modelo para que clasifique mejor. Sin embargo, si tuviéramos variables numéricas continuas, en ese caso, ¿"editar" sólo una variable de todo el muestreo no afectaría mucho a las decisiones del modelo en términos de confiabilidad con los datos? Por ejemplo, si tuviéramos un flexómetro y lo estuviéramos extendiendo mucho para que se balanceen los datos, sería una complicación en los extremos porque sabemos que el máximo es falso en realidad, le estaríamos otorgando valores arriba de los 2 metros que es un valor que comúnmente no alcanza... Entonces, qué tanto Oversampling se podría hacer en ese caso?

1 respuesta
solución!

Hola Andrés, ¡espero que estés bien!

El objetivo del oversampling es equilibrar las clases en tu conjunto de datos para que el modelo pueda aprender de manera más efectiva. Al generar datos sintéticos para la clase minoritaria, estás aumentando la cantidad de ejemplos de esa clase, lo que ayuda a que el modelo aprenda mejor las características y patrones de esa clase.

Sin embargo, es cierto que si tienes variables numéricas continuas extremas, como en tu ejemplo del flexómetro, el oversampling podría generar valores que no son realistas en los extremos. En estos casos, es importante tener en cuenta que el oversampling no es una solución perfecta y puede introducir cierto sesgo en los datos.

Una alternativa que podrías considerar es utilizar técnicas de oversampling específicas para variables numéricas continuas, como el SMOTE-NC (Synthetic Minority Over-sampling Technique for Nominal and Continuous features). Esta técnica genera ejemplos sintéticos no solo para la variable objetivo, sino también para las variables numéricas continuas, teniendo en cuenta su distribución y características.

En resumen, el oversampling puede ayudar a mejorar la clasificación de la clase minoritaria en tu modelo, pero es importante tener en cuenta las limitaciones y posibles sesgos que pueden surgir, especialmente en variables numéricas continuas extremas. Considera utilizar técnicas específicas como el SMOTE-NC si es necesario. Además, siempre debes validar el rendimiento del modelo para garantizar su confiabilidad en situaciones del mundo real.

Espero haber aclarado tu duda. ¡Buenos estudios!