Agregamos un límite de profundidad de 2 niveles (suficiente para pruebas sin colapsar el entorno) y un extractor nativo para que guarde texto limpio en lugar de código HTML crudo
import os
from bs4 import BeautifulSoup
from langchain_community.document_loaders import RecursiveUrlLoader
# 1. Configuramos el User-Agent para que no nos bloqueen
os.environ["USER_AGENT"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
url = "https://python.langchain.com/api_reference/"
# 2. CORRECCIÓN: Eliminamos el import roto y usamos BeautifulSoup estándar directamente
loader = RecursiveUrlLoader(
url=url,
max_depth=2, # Límite de niveles para que no colapse la RAM de Colab
extractor=lambda html: BeautifulSoup(html, "html.parser").get_text() # Extrae texto puro
)
print("Iniciando el rastreo recursivo de la API de LangChain... Esto puede demorar un momento.")
# 3. Cargamos los documentos
lc_docs = loader.load()
# 4. Mostramos el resultado
print("-" * 50)
print(f" Total de páginas web indexadas: {len(lc_docs)}")