Desafío: hazlo tú mismo

¡Hola Estudiante, espero que estés bien!

Parece que estás trabajando en un desafío donde necesitas aplicar la tokenización a la columna descripcion_vecindad de un conjunto de datos. Aquí tienes una guía básica sobre cómo podrías abordar este problema utilizando Pandas y expresiones regulares en Python.

Carga de datos: Asegúrate de cargar el archivo datos_hosting.json en un DataFrame de Pandas.
```
import pandas as pd

df = pd.read_json('datos_hosting.json')
```
Revisión de la columna: Antes de hacer cualquier transformación, es útil echar un vistazo a la columna descripcion_vecindad para entender qué tipo de texto contiene.
```
print(df['descripcion_vecindad'].head())
```

Limpieza del texto: Puedes usar expresiones regulares para limpiar el texto, eliminando caracteres no deseados o palabras vacías.

import re

def limpiar_texto(texto):
    # Convertir a minúsculas
    texto = texto.lower()
    # Eliminar caracteres especiales
    texto = re.sub(r'[^a-záéíóúñü\s]', '', texto)
    # Eliminar palabras vacías (opcional)
    palabras_vacias = {'y', 'el', 'la', 'en', 'de', 'que', 'a', 'los', 'las', 'con', 'por'}
    palabras = texto.split()
    texto = ' '.join([palabra for palabra in palabras if palabra not in palabras_vacias])
    return texto

Tokenización: Después de limpiar el texto, puedes convertirlo en una lista de tokens.

df['tokens_vecindad'] = df['descripcion_vecindad'].apply(lambda x: limpiar_texto(x).split())

Revisar el resultado: Finalmente, revisa algunos de los resultados para asegurarte de que el proceso ha funcionado como esperabas.
```
print(df[['descripcion_vecindad', 'tokens_vecindad']].head())
```

Esta es una forma básica de realizar la tokenización. Puedes ajustar las expresiones regulares y la lista de palabras vacías según tus necesidades específicas. Espero que esto te ayude a avanzar en tu desafío. ¡Bons estudios!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema