













































Hola, Andrés, espero que estés bien
Parece que ya has avanzado en la primera parte del desafío, que consiste en leer los datos y eliminar la columna id_cliente. Ahora, para continuar con el análisis exploratorio de datos, puedes seguir estos pasos:
Análisis de variables categóricas:
Puedes usar gráficos de barras para visualizar las categorías de las variables categóricas, como pais, sexo_biologico, y tiene_tarjeta_credito.
Utiliza la librería matplotlib o seaborn para crear estos gráficos. Por ejemplo:
import seaborn as sns
import matplotlib.pyplot as plt
# Gráfico de barras para 'pais'
sns.countplot(x='pais', data=datos_desafio, hue='churn')
plt.title('Distribución de País por Churn')
plt.show()
Análisis de variables numéricas:
Para las variables numéricas como score_credito, edad, saldo, etc., puedes usar histogramas o boxplots.
Esto te ayudará a identificar la distribución de los datos y detectar posibles valores atípicos.
# Histograma para 'score_credito'
plt.hist(datos_desafio['score_credito'], bins=30)
plt.title('Distribución de Score de Crédito')
plt.xlabel('Score de Crédito')
plt.ylabel('Frecuencia')
plt.show()
# Boxplot para 'saldo'
sns.boxplot(x='churn', y='saldo', data=datos_desafio)
plt.title('Boxplot de Saldo por Churn')
plt.show()
Estos pasos deberían ayudarte a entender mejor el comportamiento de tus datos y avanzar en el proyecto. Espero que te sirva de ayuda y ¡buenos estudios!