Hola Carlos,
¡Gracias por tu pregunta! En el contexto de la limpieza de datos para modelos de Machine Learning, es común eliminar variables que presentan alta correlación entre sí. Esto se debe a que variables altamente correlacionadas pueden introducir redundancia y sesgo en el modelo, lo que puede afectar su rendimiento.
En tu caso específico, dado que arrival_time
y departure_time
tienen una correlación muy alta (casi 100%), es recomendable eliminar una de ellas. La decisión de cuál eliminar puede depender de cuál consideres que tiene más relevancia para el problema que estás tratando de resolver. En el ejemplo que mencionas, se sugiere eliminar departure_time
.
Además, es importante considerar otras variables que no aportan información útil para el modelo, como identificadores únicos o variables que ya han sido transformadas o codificadas en otras formas más útiles.
Espero que esta explicación te sea útil para avanzar en tu proyecto. ¡Espero haber ayudado y buenos estudios!