Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

Desafío

Prompt:

Actúa como un científico de datos experto en Python y análisis exploratorio de datos (EDA).
Estoy trabajando en un proyecto de Ciencia de Datos sobre consumo de energía eléctrica mundial.

Tengo la siguiente URL que contiene un archivo CSV:

url_consumo = 'https://gist.githubusercontent.com/ahcamachod/fe75f2d71ae7b992dcdc9c6587f6e4d0/raw/c6ab400346ff9c30fc492b9233fa3a301d489acf/resumen_mundial.csv'

Objetivos:

Escribe código en Python usando la biblioteca pandas para importar los datos desde la URL y almacenarlos en un DataFrame llamado df_consumo.

Escribe código para realizar una exploración inicial de los datos, que incluya:

Dimensiones del DataFrame

Información general (tipos de datos y valores nulos)

Visualización de las primeras y últimas filas

Estadísticas descriptivas

Identificación de valores nulos

Revisión de posibles duplicados

A partir de la exploración, proporciona una breve interpretación del conjunto de datos que ayude a comprender:

Qué representa cada fila

Qué tipo de variables contiene

Cómo están organizados los años de consumo

Diccionario de datos:

continente: Nombre del continente

pais: Nombre del país

1983, 1984, ..., 2024: Consumo de energía eléctrica en cuatrillones de BTU por año

resumen_mundial: Suma del consumo de energía a lo largo de los años

Devuelve únicamente código en Python bien comentado y una explicación clara de la exploración realizada.

Respuesta del prompt:

Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad
Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad
Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad
Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad
Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad
Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad
Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad
Ingrese aquí la descripción de esta imagen para ayudar con la accesibilidad

1 respuesta

Hola, Andrés, espero que estés bien

Para abordar tu desafío, aquí tienes un ejemplo de código en Python utilizando la biblioteca pandas para realizar la importación y exploración inicial de los datos:

import pandas as pd

# 1. Importación de los datos desde la URL
url_consumo = 'https://gist.githubusercontent.com/ahcamachod/fe75f2d71ae7b992dcdc9c6587f6e4d0/raw/c6ab400346ff9c30fc492b9233fa3a301d489acf/resumen_mundial.csv'

try:
    df_consumo = pd.read_csv(url_consumo)
    print("¡Datos cargados exitosamente!\n")
except Exception as e:
    print(f"Error al cargar los datos: {e}")

# 2. Exploración Inicial

# a. Dimensiones del DataFrame (Filas, Columnas)
print(f"Dimensiones del DataFrame: {df_consumo.shape}")
print("-" * 50)

# b. Visualización de las primeras y últimas filas
print("Primeras 5 filas:")
print(df_consumo.head())  # Usar display() si estás en un entorno Jupyter/Colab
print("\nÚltimas 5 filas:")
print(df_consumo.tail())
print("-" * 50)

# c. Información general (Tipos de datos y valores no nulos)
print("Información general del dataset:")
print(df_consumo.info())
print("-" * 50)

# d. Estadísticas descriptivas
# Nota: Transponemos (.T) para facilitar la lectura si hay muchas columnas de años
print("Estadísticas descriptivas (primeras columnas):")
print(df_consumo.describe().T)
print("-" * 50)

# e. Identificación de valores nulos
print("Conteo de valores nulos por columna (Top 10):")
print(df_consumo.isnull().sum().sort_values(ascending=False).head(10))
print("-" * 50)

# f. Revisión de posibles duplicados
duplicados = df_consumo.duplicated().sum()
print(f"Cantidad de filas duplicadas: {duplicados}")

Interpretación del conjunto de datos:

  • Qué representa cada fila: Cada fila representa el consumo de energía eléctrica de un país en un continente específico a lo largo de los años.
  • Qué tipo de variables contiene: Las variables incluyen el nombre del continente, el país, el consumo anual de energía en cuatrillones de BTU desde 1983 hasta 2024, y un resumen del consumo total.
  • Cómo están organizados los años de consumo: Los años están organizados como columnas, cada una representando el consumo de energía para ese año específico.

Espero que este ejemplo te sea útil para entender mejor cómo realizar un análisis exploratorio de datos en Python. ¡Espero haber ayudado y buenos estudios!