Manos a la obra: ajustando un modelo para la planta

Primera etapa: Verifica la multicolinealidad utilizando el concepto de VIF. Si hay indicios de multicolinealidad entre las variables, intenta pensar en qué medidas se pueden tomar. Para ello, deberás construir un modelo de regresión lineal asumiendo que la columna PE es la variable y.


import pandas as pd
import numpy as np
import statsmodels.api as sm
from statsmodels.stats.outliers_influence import variance_inflation_factor
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('/content/usina.csv')

X = df.drop('PE', axis=1)
y = df['PE']

X_const = sm.add_constant(X)

vif_data = pd.DataFrame()
vif_data["Variable"] = X_const.columns
vif_data["VIF"] = [variance_inflation_factor(X_const.values, i) for i in range(X_const.shape[1])]

print("Análisis de Multicolinealidad (VIF)")
print(vif_data)
print("\nNota: VIF > 5 indica presencia de multicolinealidad moderada.")

Segunda etapa: Realiza un análisis de residuos e identifica si hay o no heterocedasticidad en los datos.

modelo_usina = sm.OLS(y, X_const).fit()

predicciones = modelo_usina.fittedvalues
residuos = modelo_usina.resid

plt.figure(figsize=(10, 6))
sns.scatterplot(x=predicciones, y=residuos, alpha=0.5)
plt.axhline(y=0, color='red', linestyle='--', linewidth=2)
plt.title('Gráfico de Residuos: Verificación de Homocedasticidad', fontsize=14)
plt.xlabel('Valores Predichos (PE)', fontsize=12)
plt.ylabel('Residuos', fontsize=12)
plt.grid(True, alpha=0.3)
plt.show()

print("\nResumen del Modelo de la Planta")
print(modelo_usina.summary())

Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad

Hola César, espero que estés bien

Vamos a analizar tus resultados paso a paso:

Primera etapa: Multicolinealidad

En el análisis de VIF, observamos que la variable AT tiene un VIF de 5.98, lo cual indica una multicolinealidad moderada. La constante tiene un VIF muy alto, pero eso es normal y no debe preocuparte.

Medidas a tomar:

Eliminar variables: Si AT tiene una fuerte correlación con otra variable, podrías considerar eliminar una de ellas.
Transformación de variables: A veces, transformar las variables puede ayudar a reducir la multicolinealidad.
Análisis de componentes principales (PCA): Esta técnica puede ayudar a reducir la dimensionalidad del conjunto de datos, eliminando la multicolinealidad.

Segunda etapa: Análisis de residuos

En el gráfico de residuos, parece que hay un patrón en forma de abanico, lo cual indica heterocedasticidad. Esto significa que la variabilidad de los residuos no es constante a lo largo de los valores predichos.

Medidas a tomar:

Transformación de la variable dependiente: Aplicar una transformación logarítmica o de Box-Cox podría estabilizar la varianza.
Modelos robustos: Considera utilizar modelos de regresión robusta que sean menos sensibles a la heterocedasticidad.
Revisar la especificación del modelo: Asegúrate de que no falten variables importantes que puedan estar causando este problema.

Espero haber aclarado tus dudas y que estas sugerencias te sean útiles. ¡Bons estudios!

Primera etapa: Multicolinealidad

Segunda etapa: Análisis de residuos

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Primera etapa: Multicolinealidad

Segunda etapa: Análisis de residuos

Tópicos relacionados

Contenidos de Alura sobre el tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP