2
respuestas

Iterar en un agrupamiento de dataframe

En el video de Identificando y excluyendo Outliers, no me queda claro en el bucle for para que se debe validar el tipo de vivienda (eh_tipo), ¿en que caso la variable eh_tipo que contiene la condicion subrayada puede ser falsa? y ¿como se itera en este grupo de dataframes?

datos_new = pd.DataFrame()
for tipo in grupo_tipo.groups.keys():
**  eh_tipo = datos['Tipo'] == tipo**
  eh_dentro_limite = (datos['Valor'] >= limite_inferior[tipo]) & (datos['Valor'] <= limite_superior[tipo])
  seleccion = eh_tipo & eh_dentro_limite
  datos_seleccion = datos[seleccion]
  datos_new = pd.concat([datos_new,datos_seleccion])

Cordial Saludo

2 respuestas

Nadie da respuesta

Hola, Cristian. Intentaré explicar el código de la aula, haciendo una debugging del código:

1. Primero, se crea un DataFrame vacío llamado `datos_new`. Este será el DataFrame donde se almacenarán los datos seleccionados.
2. Luego, se recorre cada tipo de vivienda en el conjunto de datos utilizando el bucle **for**. Por ejemplo, en la base de datos existen 5 tipos de viviendas (Departamento, Habitación, Casa de Villa, etc), el bucle se ejecutará tres veces, una para cada tipo de vivienda.
3. Dentro del bucle, se crea una condición llamada `eh_tipo` que verifica si el tipo de vivienda en una fila coincide con el tipo de vivienda actual del bucle. Por ejemplo, si el tipo actual es "Departamentio", la condición `eh_tipo` será True para las filas donde el tipo de vivienda sea "Departamento" y False para las filas con otros tipos de vivienda.
4. Después, se establecen otras condiciones para seleccionar las filas que cumplen ciertos criterios, como estar dentro de ciertos límites.
5. A continuación, se crea una nueva variable llamada seleccion que combina la condición eh_tipo con otras condiciones utilizando el operador lógico "&". Esto significa que la fila debe cumplir tanto la condición de tipo de vivienda como las otras condiciones para ser seleccionada.
6. Luego, se seleccionan las filas que cumplen la condición seleccion del DataFrame original y se almacenan en un nuevo DataFrame que es datos_seleccion.
7. Finalmente, el DataFrame datos_seleccion se agrega al DataFrame datos_new utilizando la función pd.concat(), que concatena los DataFrames. Esto se hace en cada iteración del bucle para ir acumulando las filas seleccionadas.

Espero que este paso a paso responda tu duda! Abrazos!