https://colab.research.google.com/drive/1PSq-CsYS7i3WH6MsyFLWmQa7mxXyOTtW#scrollTo=InD8_oDQZmJ7&line=1&uniqifier=1
https://colab.research.google.com/drive/1PSq-CsYS7i3WH6MsyFLWmQa7mxXyOTtW#scrollTo=BbCVKlktZad0&line=1&uniqifier=1
¡Hola Estudiante, espero que estés bien!
Parece que estás trabajando en un desafío donde necesitas aplicar la tokenización a la columna descripcion_vecindad de un conjunto de datos. Aquí tienes una guía básica sobre cómo podrías abordar este problema utilizando Pandas y expresiones regulares en Python.
Carga de datos: Asegúrate de cargar el archivo datos_hosting.json en un DataFrame de Pandas.
import pandas as pd
df = pd.read_json('datos_hosting.json')
Revisión de la columna: Antes de hacer cualquier transformación, es útil echar un vistazo a la columna descripcion_vecindad para entender qué tipo de texto contiene.
print(df['descripcion_vecindad'].head())
Limpieza del texto: Puedes usar expresiones regulares para limpiar el texto, eliminando caracteres no deseados o palabras vacías.
import re
def limpiar_texto(texto):
# Convertir a minúsculas
texto = texto.lower()
# Eliminar caracteres especiales
texto = re.sub(r'[^a-záéíóúñü\s]', '', texto)
# Eliminar palabras vacías (opcional)
palabras_vacias = {'y', 'el', 'la', 'en', 'de', 'que', 'a', 'los', 'las', 'con', 'por'}
palabras = texto.split()
texto = ' '.join([palabra for palabra in palabras if palabra not in palabras_vacias])
return texto
Tokenización: Después de limpiar el texto, puedes convertirlo en una lista de tokens.
df['tokens_vecindad'] = df['descripcion_vecindad'].apply(lambda x: limpiar_texto(x).split())
Revisar el resultado: Finalmente, revisa algunos de los resultados para asegurarte de que el proceso ha funcionado como esperabas.
print(df[['descripcion_vecindad', 'tokens_vecindad']].head())
Esta es una forma básica de realizar la tokenización. Puedes ajustar las expresiones regulares y la lista de palabras vacías según tus necesidades específicas. Espero que esto te ayude a avanzar en tu desafío. ¡Bons estudios!