Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

Desafío: hazlo tú mismo

import pandas as pd
import re

1️⃣ Leer el archivo JSON

df = pd.read_json("datos_hosting.json")

2️⃣ Limpiar el texto de la columna descripcion_vecindad

df['descripcion_vecindad_limpia'] = (
df['descripcion_vecindad']
.str.lower() # Pasar todo a minúsculas
.str.replace(r"[^a-záéíóúüñ0-9\s]", "", regex=True) # Quitar signos de puntuación y símbolos
)

3️⃣ Tokenizar (convertir en lista de palabras)

df['descripcion_vecindad_token'] = df['descripcion_vecindad_limpia'].str.split()

4️⃣ (Opcional) Eliminar stopwords en español

stopwords = set([
"de", "la", "el", "en", "y", "a", "los", "las", "un", "una", "con", "por", "para", "del", "al"
])

df['descripcion_vecindad_token'] = df['descripcion_vecindad_token'].apply(
lambda tokens: [t for t in tokens if t not in stopwords]
)

5️⃣ Ver resultado

print(df[['descripcion_vecindad', 'descripcion_vecindad_token']].head())

1 respuesta

Hola , espero que estés muy bien.

Felicitaciones por tu aprendizaje. Estamos priorizando el foro para postear dudas, así optimizamos el tiempo de respuesta para ustedes.

Para no dejar de compartir los códigos, actividades y ejercicios que realizas, creamos un canal en Discord (#compartetucodigo) donde puedes compartirlos, dar y sugerir mejoras con el resto de tus compañeros.

Un saludo.

Si este post te ayudó, por favor, marca como solucionado ✓. Continúa con tus estudios