Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
Ya estoy inscrito ¿Todavía no tienes acceso? Nuestros Planes
1
respuesta

Eliminando caracteres con Regex

Gracias por la explicación. Estoy aprendiendo y me pareció muy útil ver cómo usar regex para limpiar caracteres especiales de los textos, porque así los datos quedan más claros y listos para la tokenización.

1 respuesta

¡Hola Estudiante, espero que estés bien!

Me alegra saber que encontraste útil la explicación sobre cómo usar regex para limpiar caracteres especiales de los textos. Las expresiones regulares son una herramienta poderosa para manipular y limpiar datos, especialmente cuando se trata de preparar textos para procesos como la tokenización.

Un ejemplo práctico de cómo podrías usar regex en Python con pandas para eliminar caracteres especiales sería el siguiente:

import pandas as pd

# Supongamos que tienes un DataFrame con una columna de texto llamada 'descripcion_local'
df = pd.DataFrame({'descripcion_local': ["Hola, ¿cómo estás?", "¡Bienvenido! Este es un ejemplo.", "Python es genial :)"]})

# Usando regex para eliminar caracteres especiales
df['descripcion_local'] = df['descripcion_local'].str.replace(r'[^a-zA-Z0-9\s]', '', regex=True)

print(df)

En este ejemplo, la expresión regular r'[^a-zA-Z0-9\s]' se utiliza para eliminar todo excepto letras (tanto mayúsculas como minúsculas), números y espacios. El ^ dentro de los corchetes indica una negación, es decir, que queremos eliminar todo lo que no sea un carácter alfanumérico o un espacio.

Espero que esta explicación te ayude a comprender mejor cómo aplicar regex para limpiar tus datos. ¡Bons estudos!