Hola Andrés, ¡espero que estés bien!
El objetivo del oversampling es equilibrar las clases en tu conjunto de datos para que el modelo pueda aprender de manera más efectiva. Al generar datos sintéticos para la clase minoritaria, estás aumentando la cantidad de ejemplos de esa clase, lo que ayuda a que el modelo aprenda mejor las características y patrones de esa clase.
Sin embargo, es cierto que si tienes variables numéricas continuas extremas, como en tu ejemplo del flexómetro, el oversampling podría generar valores que no son realistas en los extremos. En estos casos, es importante tener en cuenta que el oversampling no es una solución perfecta y puede introducir cierto sesgo en los datos.
Una alternativa que podrías considerar es utilizar técnicas de oversampling específicas para variables numéricas continuas, como el SMOTE-NC (Synthetic Minority Over-sampling Technique for Nominal and Continuous features). Esta técnica genera ejemplos sintéticos no solo para la variable objetivo, sino también para las variables numéricas continuas, teniendo en cuenta su distribución y características.
En resumen, el oversampling puede ayudar a mejorar la clasificación de la clase minoritaria en tu modelo, pero es importante tener en cuenta las limitaciones y posibles sesgos que pueden surgir, especialmente en variables numéricas continuas extremas. Considera utilizar técnicas específicas como el SMOTE-NC si es necesario. Además, siempre debes validar el rendimiento del modelo para garantizar su confiabilidad en situaciones del mundo real.
Espero haber aclarado tu duda. ¡Buenos estudios!