¿Por qué te conviene este cambio?
chunk.page_content: Extrae el texto neto del PDF sin los metadatos ni las etiquetas de la estructura de la librería.
El rebanado [:5]: Es un tip salvavidas en cuadernos de notas. Si tu PDF generó 200 fragmentos, un for completo te va a trabar el scroll de Colab. Limitándolo a los primeros 5 podés auditar si el tamaño de 300 caracteres te gusta o si quedó muy cortado, antes de mandarlo a la base de datos vectorial.
for i, chunk in enumerate(chunks[:5]): # Usamos [:5] para previsualizar solo los primeros 5 y no saturar la pantalla
print(f" CHUNK N° {i+1}")
print("-" * 50)
print(chunk.page_content)
print("=" * 50 + "\n")
Respuesta ==>
CHUNK N° 1
Política de Teletrabajo (Home Office)
1. Objetivo Definir las directrices para la modalidad de trabajo remoto (Home Office),
equilibrando la flexibilidad para los empleados con las necesidades operativas y de
colaboración de la empresa.
CHUNK N° 2
colaboración de la empresa.
2. Modelo de Trabajo Híbrido La empresa adopta un modelo de trabajo híbrido como
estándar. La configuración general es de 3 días de trabajo presencial en la oficina y 2 días
de trabajo remoto por semana.
CHUNK N° 3
Elegibilidad Esta modalidad está disponible para empleados cuyas funciones pueden
desempeñarse eficazmente fuera de la oficina, tras completar el período de prueba (6
meses) y con la aprobación formal de su gerente directo.
CHUNK N° 4
Jornada y Disponibilidad El empleado en Home Office debe cumplir su jornada laboral
estándar y estar disponible (online, teléfono, e-mail) durante el horario laboral acordado. Las
ausencias deben gestionarse igual que en la oficina (ej. solicitud de vacaciones).
CHUNK N° 5
Espacio de Trabajo y Equipamiento
Equipamiento: La empresa proporcionará el equipamiento informático necesario
(portátil, monitor, VPN).
Responsabilidad del Empleado: El empleado es responsable de garantizar un