leer una página html directamente en Wikipedia no funciona

Hola Carlos, espero que estés bien

Entiendo tu frustración con el error "HTTP Error 403: Forbidden". Este error generalmente ocurre porque el servidor web, en este caso Wikipedia, bloquea el acceso automatizado que no se identifica como un navegador web estándar. Afortunadamente, hay una manera de solucionar esto configurando el encabezado de la solicitud HTTP para que se parezca a una solicitud de un navegador.

Puedes intentar modificar tu código para incluir un encabezado User-Agent. Aquí tienes un ejemplo de cómo podrías hacerlo:

import pandas as pd
import requests

url = "https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n"

# Definir el encabezado para parecer un navegador
headers = {'User-Agent': 'Mozilla/5.0'}

# Obtener el contenido de la página
response = requests.get(url, headers=headers)

# Leer las tablas de la página
tablas = pd.read_html(response.text)

# Seleccionar la primera tabla
tabla_poblacion = tablas[0]

# Mostrar las primeras filas de la tabla
print(tabla_poblacion.head())

En este código, utilizamos la biblioteca requests para obtener el contenido de la página web, especificando un User-Agent que simula ser un navegador. Luego, pasamos el contenido de la respuesta a pd.read_html() para extraer las tablas.

Espero que esta solución te ayude a avanzar en tu proyecto. ¡Bons estudios!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema