[Duda] Tratamiento de nan

¡Hola! Es genial que estés profundizando en el manejo de valores nan en tus datos. Cuando trabajamos con grandes cantidades de datos, identificar visualmente los nan no es práctico. Afortunadamente, NumPy ofrece herramientas que facilitan este proceso.

Para detectar nan en grandes arrays, puedes usar la función np.isnan(). Esta función te devuelve un array booleano del mismo tamaño que el original, donde True indica la presencia de un nan. Por ejemplo:

import numpy as np

datos = np.array([1.0, 2.5, np.nan, 4.5, np.nan])
nan_indices = np.isnan(datos)
print(nan_indices)

Esto imprimirá [False, False, True, False, True], mostrando dónde están los nan.

Si deseas obtener los índices de los nan, puedes usar np.where() junto con np.isnan():

indices_nan = np.where(nan_indices)
print(indices_nan)

Esto te dará los índices de los elementos que son nan, en este caso (array([2, 4]),).

Para grandes conjuntos de datos, puedes sumar los valores booleanos para contar cuántos nan hay:

cantidad_nan = np.sum(nan_indices)
print(f"Cantidad de nan: {cantidad_nan}")

Esto te dirá cuántos nan hay en total.

Espero que estas herramientas te sean útiles para manejar nan en grandes conjuntos de datos. ¡Espero haber ayudado y buenos estudios!

Si este post te ayudó, por favor, marca como solucionado ✓. Continúa con tus estudios!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema