[Duda] Tamaño de dataset de prueba y entrenamiento | Machine Learning con Oracle ADS: productividad en la creación de modelos | Alura Latam

¡Hola Camila!

El tamaño del conjunto de datos de prueba y entrenamiento puede variar dependiendo del problema y del modelo que estés utilizando. No hay un porcentaje fijo que sea aceptable en todos los casos. Sin embargo, hay algunas recomendaciones generales que puedes seguir.

En general, es recomendable tener una cantidad suficiente de datos de entrenamiento para que el modelo pueda aprender correctamente. Si tienes muy pocos datos de entrenamiento, es posible que el modelo no pueda capturar todas las características y patrones necesarios para hacer predicciones precisas.

Por otro lado, también es importante tener suficientes datos de prueba para evaluar el rendimiento del modelo de manera confiable. Si tienes muy pocos datos de prueba, los resultados pueden ser menos confiables y no podrás tener una idea clara de cómo se desempeñará el modelo en situaciones reales.

Una buena práctica es dividir los datos en un 70-30 o 80-20, es decir, utilizar el 70% u 80% de los datos para entrenamiento y el 30% u 20% para pruebas. Esto es solo una guía general y puedes ajustar los porcentajes según tus necesidades y el tamaño de tu conjunto de datos.

En el ejemplo que mencionas, se utiliza aproximadamente el 90% de los datos para entrenamiento y el 10% para pruebas. Esto puede ser adecuado en este caso particular, pero recuerda que siempre debes adaptar el tamaño del conjunto de datos de prueba y entrenamiento a tu problema específico.

Si este post te ayudó, por favor, marca como solucionado ✓.