Sobre la normalización y como afecta en un flujo real de trabajo

Hola comunidad, estoy profundizando en las etapas de preparación de datos para el entrenamiento de modelos, se que la teoría dice que la calidad, representatividad, normalización y validación son importantes para obtener mejores respuesta o respuestas más precisas.
Sin embargo, me gustaría entender que pasa detras. Para eso, hice unas preguntitas que son las siguientes:

¿Qué pasa exactamente cuando un conjunto de datos no está normalizado?
¿Qué herramientas o criterios suelen usar en sus flujos de trabajo para la etapa de validación?

Agradezco si pueden compartir sus experiencias o flujos de trabajo sobre cómo abordan este proceso de limpieza antes de entrenar un modelo.
Muchisimas gracias, un saludo.

Hola Duglas, espero que estés bien.

¡Qué bueno que estás profundizando en la preparación de datos para modelos de inteligencia artificial! La normalización de datos es un paso crucial en este proceso y entender su impacto puede mejorar significativamente el rendimiento de tus modelos.

Cuando un conjunto de datos no está normalizado, los valores de las características pueden tener diferentes escalas. Esto puede afectar el rendimiento de ciertos algoritmos de aprendizaje automático que son sensibles a la escala de los datos, como los que utilizan distancias (por ejemplo, K-Nearest Neighbors o algoritmos de clustering). La falta de normalización puede llevar a que algunas características dominen a otras, lo que podría resultar en un modelo sesgado o ineficaz.

Por ejemplo, si estás trabajando con un conjunto de datos que incluye tanto ingresos anuales como edad, los ingresos pueden estar en miles mientras que la edad está en decenas. Sin normalización, el modelo podría dar más importancia a los ingresos simplemente porque sus valores son más grandes, no necesariamente porque sean más relevantes.

En cuanto a las herramientas y criterios para la validación, muchos profesionales utilizan técnicas como la validación cruzada para evaluar la estabilidad y el rendimiento de sus modelos. Herramientas como Scikit-learn en Python ofrecen funciones integradas para realizar estas tareas de manera eficiente. También es común dividir el conjunto de datos en subconjuntos de entrenamiento y prueba para asegurarse de que el modelo generaliza bien a datos no vistos.

Espero que estas ideas te sean útiles en tu flujo de trabajo y te ayuden a abordar el proceso de limpieza de datos con más confianza. ¡Espero haber ayudado y buenos estudios!

Si este post te ayudó, por favor, marca como solucionado ✓. ¡Continúa con tus estudios!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema