Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
0
respuestas

Desafío: hazlo tú mismo

import pandas as pd
import re

1️⃣ Leer el archivo JSON

df = pd.read_json("datos_hosting.json")

2️⃣ Limpiar el texto de la columna descripcion_vecindad

df['descripcion_vecindad_limpia'] = (
df['descripcion_vecindad']
.str.lower() # Pasar todo a minúsculas
.str.replace(r"[^a-záéíóúüñ0-9\s]", "", regex=True) # Quitar signos de puntuación y símbolos
)

3️⃣ Tokenizar (convertir en lista de palabras)

df['descripcion_vecindad_token'] = df['descripcion_vecindad_limpia'].str.split()

4️⃣ (Opcional) Eliminar stopwords en español

stopwords = set([
"de", "la", "el", "en", "y", "a", "los", "las", "un", "una", "con", "por", "para", "del", "al"
])

df['descripcion_vecindad_token'] = df['descripcion_vecindad_token'].apply(
lambda tokens: [t for t in tokens if t not in stopwords]
)

5️⃣ Ver resultado

print(df[['descripcion_vecindad', 'descripcion_vecindad_token']].head())