1
respuesta

Diferencia entre

¿A qué se debe la diferencia entre los dos histogramas? Es decir, el que creamos, datos_new, sólo tiene una diferencia y es que excluimos los outliers, entones, ¿por qué los histogramas entre los Dataframes datos y datos_new varían tanto?

1 respuesta

¡Hola Silvia!

La diferencia en los histogramas entre los DataFrames datos y datos_new se debe a que en datos_new hemos excluido los outliers, es decir, los valores atípicos que están fuera de la curva principal de los datos. Al eliminar estos outliers, estamos eliminando valores extremos que pueden distorsionar la distribución de los datos y afectar la interpretación de los resultados.

En el caso del DataFrame datos, que incluye todos los valores, el histograma puede mostrar una distribución más dispersa y con una mayor variabilidad debido a la presencia de estos outliers. Por otro lado, en el DataFrame datos_new, al haber eliminado los outliers, el histograma puede mostrar una distribución más concentrada y representativa de la mayoría de los datos.

Por ejemplo, si tenemos un conjunto de datos de alquileres residenciales y algunos valores extremadamente altos que corresponden a propiedades de lujo, estos valores atípicos pueden afectar la interpretación de la distribución de los alquileres. Al eliminar estos outliers, el histograma puede mostrar una distribución más clara y representativa de los alquileres residenciales en general.

Es importante tener en cuenta que la eliminación de outliers es una decisión que debe tomarse con cuidado y basada en el contexto y el conocimiento del dominio. No todos los valores atípicos deben ser eliminados, ya que algunos pueden ser información valiosa o representar casos especiales. Es recomendable analizar detenidamente los datos y consultar con expertos en el dominio antes de tomar decisiones sobre la exclusión de outliers.

Si este post te ayudó, por favor, marca como solucionado ✓.