Hola, espero que se encuentren muy bien.
Mi duda surge en el último ejercicio que dice:
Estamos estudiando los ingresos mensuales de los jefes de hogar con ingresos de hasta R $ 5.000,00 en Brasil. Nuestro supervisor determinó que el error máximo en relación a la media es de R $ 10,00. Sabemos que la desviación estándar poblacional de este grupo de trabajadores es R $ 1.082,79 y que la media poblacional es R $ 1.426,54. Para un nivel de confianza del 95%, ¿cuál debería ser el tamaño de la muestra de nuestro estudio? ¿Cuál es el intervalo de confianza para la media considerando el tamaño de muestra obtenido?
Tomando en consideración que tenemos el universo de datos de nuestro data frame datos:
datos_ejercicio = datos.query('Ingreso<=5000').Ingreso
datos_ejercicio
Veo que nuestro ejercicio avanza con un cálculo de tamaño de muestra para una población infinito. Donde tenemos:
error = 10
desviacion_estandar_poblacional = 1082.79
media_poblacional = 1426.54
confianza = 0.95
z = norm.ppf(0.50+confianza/2)
n = (z*(desviacion_estandar_poblacional/error))**2
n.round()
#Resultado: 45039.0
Sin embargo, tenemos datos suficientes para hacer el cálculo de tamaño de la muestra para una población finita, el ejercicio quedaria masomenos así:
datos_ejercicio = datos.query('Ingreso<=5000').Ingreso
desviacion_estandar_muestral = datos_ejercicio.std()
error = 10
confianza = 0.95
tamano_poblacional= datos.shape[0] #Tamaño de la poblacion de datos.
N = tamano_poblacional
s = desviacion_estandar_muestral
z = norm.ppf(0.50+confianza/2)
e = error
n = ((z**2)*(s**2)*N)/((z**2)*(s**2)+(e**2)*(N-1))
n.round()
#Resultado: 27184.0
¿Ahora pregunto, esto es correcto?