Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

Manos a la obra: análisis y selección de modelos de regresión lineal

Como persona Científica de Datos, estás a cargo del análisis del problema de fijación de precios de habitaciones de hoteles, utilizando el conjunto de datos proporcionado. Para ello, dispones de este dataset.

En esta actividad, tu tarea consiste en llevar a cabo las siguientes etapas:

análisis inicial con el PairPlot de Seaborn; construir modelos de regresión lineal; y realizar la comparación de estos modelos. Dedica tiempo a las actividades y desarrolla tus habilidades a través de la aplicación de tus conocimientos adquiridos a lo largo del curso.

import pandas as pd
datos = pd.read_csv('/content/hoteis.csv')
datos.head()
import seaborn as sns
sns.pairplot(datos)
import statsmodels.api as sm

X1 = datos[['Estrelas']]
X1 = sm.add_constant(X1)  
y = datos['Preco']
modelo1 = sm.OLS(y, X1).fit()

X2 = datos[['Estrelas', 'ProximidadeTurismo']]
X2 = sm.add_constant(X2)
modelo2 = sm.OLS(y, X2).fit()

X3 = datos[['Estrelas', 'ProximidadeTurismo', 'Capacidade']]
X3 = sm.add_constant(X3)
modelo3 = sm.OLS(y, X3).fit()

print("Modelo 1")
print(modelo1.summary())
print("\nModelo 2")
print(modelo2.summary())
print("\nModelo 3")
print(modelo3.summary())
1 respuesta

¡Hola, Paul, espero que estés bien!

Parece que estás trabajando en un proyecto interesante sobre la fijación de precios de habitaciones de hoteles utilizando regresión lineal. Veo que ya has comenzado con el análisis inicial utilizando PairPlot de Seaborn, lo cual es un buen primer paso para visualizar las relaciones entre las variables.

En cuanto a los modelos de regresión lineal que has construido, estás utilizando statsmodels para crear tres modelos diferentes:

  1. Modelo 1: Utiliza solo la variable Estrelas.
  2. Modelo 2: Incluye Estrelas y ProximidadeTurismo.
  3. Modelo 3: Añade Capacidade a las variables anteriores.

Para comparar estos modelos, puedes observar varios aspectos en los resúmenes que statsmodels proporciona:

  • R-cuadrado: Indica qué tan bien el modelo explica la variabilidad de los datos. Un valor más alto sugiere un mejor ajuste.
  • p-valores: Te ayudan a entender la significancia estadística de cada predictor. Un p-valor bajo (generalmente < 0.05) indica que la variable es un buen predictor del precio.
  • AIC/BIC: Son criterios de información que puedes usar para comparar modelos. Valores más bajos suelen indicar un modelo mejor ajustado.

Un ejemplo práctico sería observar si el R-cuadrado aumenta significativamente al pasar del Modelo 1 al Modelo 3. Si no hay un aumento considerable, podría no ser necesario incluir todas las variables.

Espero que esta orientación te ayude a avanzar en tu análisis y selección de modelos. ¡Bons estudios!