import pandas as pd
import re
1️⃣ Leer el archivo JSON
df = pd.read_json("datos_hosting.json")
2️⃣ Limpiar el texto de la columna descripcion_vecindad
df['descripcion_vecindad_limpia'] = (
df['descripcion_vecindad']
.str.lower() # Pasar todo a minúsculas
.str.replace(r"[^a-záéíóúüñ0-9\s]", "", regex=True) # Quitar signos de puntuación y símbolos
)
3️⃣ Tokenizar (convertir en lista de palabras)
df['descripcion_vecindad_token'] = df['descripcion_vecindad_limpia'].str.split()
4️⃣ (Opcional) Eliminar stopwords en español
stopwords = set([
"de", "la", "el", "en", "y", "a", "los", "las", "un", "una", "con", "por", "para", "del", "al"
])
df['descripcion_vecindad_token'] = df['descripcion_vecindad_token'].apply(
lambda tokens: [t for t in tokens if t not in stopwords]
)
5️⃣ Ver resultado
print(df[['descripcion_vecindad', 'descripcion_vecindad_token']].head())