Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

Desafío: leer una tabla de una página web

Vanessa es una científica de datos que está haciendo algunos análisis con datos ambientales. Está desarrollando un proyecto para evaluar el impacto ambiental de las actividades humanas en diferentes países del mundo, pero para ello necesita estimaciones de población de esos países. Al buscar en Internet, encontró una tabla de estimaciones de población en un artículo de la página de Wikipedia.

Al igual que Vanessa, tu desafío es obtener un DataFrame de la tabla que contiene la información del número de habitantes de cada país.

pd.read_html('https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n')[0]
1 respuesta

Hola Paul,

¡Qué interesante el desafío que estás enfrentando! Vanessa está en una situación común para quienes trabajan con datos: obtener información de tablas en páginas web. Para resolver este desafío, puedes utilizar la función pd.read_html() de la biblioteca Pandas, que es perfecta para extraer tablas de HTML.

El código que has compartido parece estar en el camino correcto. Aquí te dejo un ejemplo práctico de cómo podrías utilizar esta función para obtener el DataFrame de la tabla de población desde Wikipedia:

import pandas as pd

# URL de la página de Wikipedia con la tabla de población
url = 'https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n'

# Usar read_html para obtener todas las tablas de la página
tablas = pd.read_html(url)

# Seleccionar la primera tabla (o la que corresponda a la información que necesitas)
df_poblacion = tablas[0]

# Mostrar las primeras filas del DataFrame
print(df_poblacion.head())

Este código hará lo siguiente:

  1. Importará la biblioteca Pandas.
  2. Definirá la URL de la página de Wikipedia.
  3. Usará pd.read_html() para leer todas las tablas de la página. Esta función devuelve una lista de DataFrames.
  4. Seleccionará la primera tabla de la lista (índice 0), que se espera que sea la que contiene la información de población.
  5. Finalmente, imprimirá las primeras filas del DataFrame para que puedas verificar que los datos se han cargado correctamente.

Espero que esto te ayude a avanzar en tu proyecto y que puedas obtener los datos necesarios para el análisis de Vanessa.

¡Espero haber ayudado y buenos estudios!

Si este post te ayudó, por favor, marca como solucionado ✓. Continúa con tus estudios!