Iterar en un agrupamiento de dataframe

Cristian Camilo Becerra Muriel · 2023-05-30 04:38

En el video de Identificando y excluyendo Outliers, no me queda claro en el bucle for para que se debe validar el tipo de vivienda (eh_tipo), ¿en que caso la variable eh_tipo que contiene la cond

datos_new = pd.DataFrame() for tipo in grupo_tipo.groups.keys(): ** eh_tipo = datos['Tipo'] == tipo** eh_dentro_limite = (datos['Valor'] >= limite_inferior[tipo]) & (datos['Valor'] <= limite_superior[tipo]) seleccion = eh_tipo & eh_dentro_limite datos_seleccion = datos[seleccion] datos_new = pd.concat([datos_new,datos_seleccion])

Hola, Cristian. Intentaré explicar el código de la aula, haciendo una debugging del código:

1. Primero, se crea un DataFrame vacío llamado `datos_new`. Este será el DataFrame donde se almacenarán los datos seleccionados.
2. Luego, se recorre cada tipo de vivienda en el conjunto de datos utilizando el bucle **for**. Por ejemplo, en la base de datos existen 5 tipos de viviendas (Departamento, Habitación, Casa de Villa, etc), el bucle se ejecutará tres veces, una para cada tipo de vivienda.
3. Dentro del bucle, se crea una condición llamada `eh_tipo` que verifica si el tipo de vivienda en una fila coincide con el tipo de vivienda actual del bucle. Por ejemplo, si el tipo actual es "Departamentio", la condición `eh_tipo` será True para las filas donde el tipo de vivienda sea "Departamento" y False para las filas con otros tipos de vivienda.
4. Después, se establecen otras condiciones para seleccionar las filas que cumplen ciertos criterios, como estar dentro de ciertos límites.
5. A continuación, se crea una nueva variable llamada seleccion que combina la condición eh_tipo con otras condiciones utilizando el operador lógico "&". Esto significa que la fila debe cumplir tanto la condición de tipo de vivienda como las otras condiciones para ser seleccionada.
6. Luego, se seleccionan las filas que cumplen la condición seleccion del DataFrame original y se almacenan en un nuevo DataFrame que es datos_seleccion.
7. Finalmente, el DataFrame datos_seleccion se agrega al DataFrame datos_new utilizando la función pd.concat(), que concatena los DataFrames. Esto se hace en cada iteración del bucle para ir acumulando las filas seleccionadas.

Espero que este paso a paso responda tu duda! Abrazos!

Trilhas por carreira

Carreiras de IA

Carreiras de Dados

Carreiras de Cyber

Carreiras de DevOps & Cloud

Carreiras de UX & UI

Carreiras de Mobile & Front-End

Carreiras de Back-End

Carreiras de Negócios

Cursos universitários FIAP

Tópicos relacionados

Contenidos de Alura sobre el tema