Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1 respuesta

¡Hola Estudiante, espero que estés bien!

Parece que estás trabajando en un desafío donde necesitas aplicar la tokenización a la columna descripcion_vecindad de un conjunto de datos. Aquí tienes una guía básica sobre cómo podrías abordar este problema utilizando Pandas y expresiones regulares en Python.

  1. Carga de datos: Asegúrate de cargar el archivo datos_hosting.json en un DataFrame de Pandas.

    import pandas as pd
    
    df = pd.read_json('datos_hosting.json')
    
  2. Revisión de la columna: Antes de hacer cualquier transformación, es útil echar un vistazo a la columna descripcion_vecindad para entender qué tipo de texto contiene.

    print(df['descripcion_vecindad'].head())
    
  3. Limpieza del texto: Puedes usar expresiones regulares para limpiar el texto, eliminando caracteres no deseados o palabras vacías.

    import re
    
    def limpiar_texto(texto):
        # Convertir a minúsculas
        texto = texto.lower()
        # Eliminar caracteres especiales
        texto = re.sub(r'[^a-záéíóúñü\s]', '', texto)
        # Eliminar palabras vacías (opcional)
        palabras_vacias = {'y', 'el', 'la', 'en', 'de', 'que', 'a', 'los', 'las', 'con', 'por'}
        palabras = texto.split()
        texto = ' '.join([palabra for palabra in palabras if palabra not in palabras_vacias])
        return texto
    
  4. Tokenización: Después de limpiar el texto, puedes convertirlo en una lista de tokens.

    df['tokens_vecindad'] = df['descripcion_vecindad'].apply(lambda x: limpiar_texto(x).split())
    
  5. Revisar el resultado: Finalmente, revisa algunos de los resultados para asegurarte de que el proceso ha funcionado como esperabas.

    print(df[['descripcion_vecindad', 'tokens_vecindad']].head())
    

Esta es una forma básica de realizar la tokenización. Puedes ajustar las expresiones regulares y la lista de palabras vacías según tus necesidades específicas. Espero que esto te ayude a avanzar en tu desafío. ¡Bons estudios!