Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

[Sugerencia] Script de busqueda de url

Agregamos un límite de profundidad de 2 niveles (suficiente para pruebas sin colapsar el entorno) y un extractor nativo para que guarde texto limpio en lugar de código HTML crudo

import os
from bs4 import BeautifulSoup
from langchain_community.document_loaders import RecursiveUrlLoader

# 1. Configuramos el User-Agent para que no nos bloqueen
os.environ["USER_AGENT"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"

url = "https://python.langchain.com/api_reference/"

# 2. CORRECCIÓN: Eliminamos el import roto y usamos BeautifulSoup estándar directamente
loader = RecursiveUrlLoader(
    url=url,
    max_depth=2,  # Límite de niveles para que no colapse la RAM de Colab
    extractor=lambda html: BeautifulSoup(html, "html.parser").get_text() # Extrae texto puro
)

print("Iniciando el rastreo recursivo de la API de LangChain... Esto puede demorar un momento.")

# 3. Cargamos los documentos
lc_docs = loader.load()

# 4. Mostramos el resultado
print("-" * 50)
print(f" Total de páginas web indexadas: {len(lc_docs)}")
1 respuesta

Hola, Christian. ¿Cómo vas?
Gracias por compartir tus reflexiones y aprendizajes con la comunidad Alura.

Me gustó tu sugerencia de limitar la profundidad del rastreo y extraer el texto limpio con BeautifulSoup, porque eso ayuda a evitar sobrecarga en Colab y deja los documentos más útiles para el flujo de RAG. Tu ajuste con max_depth=2 y el extractor hace que el uso de RecursiveUrlLoader sea más controlado y práctico para pruebas.

Cuenta con el apoyo del foro en tu viaje. Saludos y buenos estudios!