[Sugerencia] Script de busqueda de url

Agregamos un límite de profundidad de 2 niveles (suficiente para pruebas sin colapsar el entorno) y un extractor nativo para que guarde texto limpio en lugar de código HTML crudo

import os
from bs4 import BeautifulSoup
from langchain_community.document_loaders import RecursiveUrlLoader

# 1. Configuramos el User-Agent para que no nos bloqueen
os.environ["USER_AGENT"] = "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"

url = "https://python.langchain.com/api_reference/"

# 2. CORRECCIÓN: Eliminamos el import roto y usamos BeautifulSoup estándar directamente
loader = RecursiveUrlLoader(
    url=url,
    max_depth=2,  # Límite de niveles para que no colapse la RAM de Colab
    extractor=lambda html: BeautifulSoup(html, "html.parser").get_text() # Extrae texto puro
)

print("Iniciando el rastreo recursivo de la API de LangChain... Esto puede demorar un momento.")

# 3. Cargamos los documentos
lc_docs = loader.load()

# 4. Mostramos el resultado
print("-" * 50)
print(f" Total de páginas web indexadas: {len(lc_docs)}")

[Sugerencia] Script de busqueda de url

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP