10. Prueba F sobre Beta
La distribución beta
Distribución que permite generar una gran variedad de perfile. Se ha utilizado para representar variables físicas cuyos valores se encuentran restringidos a un intervalo de longitud finita y para encontrar ciertas cantidades conocen como límites de tolerancia sin necesidad de la hipótesis de una distribución normal, Además, la distribución beta juega un gran papel en la estadística .
Se dice que una variable aleatoria X posee una distribución beta si su función de densidad de probabilidad está dada por:
{r(a + {3) x"-l(l -X)13-1 O < x < 1 a {3 > O
f(x; a, {3) = r(a)r({3) , , , (5.31)
o. para cualquier otro valor
s cantidades a y {3 de la distribución beta son, ambas, parámetros de perfil. es distintos de a y {3 darán distintos perfiles para la función de densidad beta.
to a como {3 son menores que uno, la distribución beta tiene un perfil en for- u. Si a < I y {3 ~ I, la distribución ti~ne un perfil de J transpuesta, y si
I ya ~ 1, el perfil es una J. Cuando tanto a y {3 son ambos mayores que uno, Jibución presenta un pico en x = (a -I)/(a + {3 -2), Finalmente, la ución beta es simétrica cuando a = {3. En la figura 5.6 se encuentran ilustra- tos perfiles para valores específicos de a y {3. Nótese que si en (5,31) x se reem- por x -I, se obtiene la siguiente relación de simetría
f(1 -x; {3, a) = f(x; a, {3) (5.32)
inombre de esta distribución proviene de su asociación con la función beta que uentra definida por
B(a, {3) = Jol x"-l(l -x)13-1dx, (5.33)
demostrarse que las funciones beta y gama se encuentran relacionadas por la expresión
B(a, {3) = ~. (534) r(a +{3}
Para analizar si existe diferencia en los promedios se procede a realizar una prueba F que se explica posteriormente.
TABLA 1
CALIFICACIÓN
GRADO ESCOLAR
CALIFICACIÓN
GRADO ESCOLAR
67.15204678
DOCTORADO
39.5662768
ESTUDIANTE
64.36842105
DOCTORADO
39.07309942
ESTUDIANTE
60.91130604
ESTUDIANTE
38.71247563
DOCTORADO
55.38986355
ESTUDIANTE
34.95321637
ESTUDIANTE
53.917154
ESTUDIANTE
34.27777778
ESTUDIANTE
53.3460039
MAESTRÍA
34.27192982
ESTUDIANTE
52.15984405
ESTUDIANTE
67.63611386
DOCTORADO
51.86842105
ESTUDIANTE
62.77020467
DOCTORADO
51.12768031
DOCTORADO
60.88483775
ESTUDIANTE
50.63060429
ESTUDIANTE
56.50144025
ESTUDIANTE
50.35477583
MAESTRÍA
51.76861802
ESTUDIANTE
48.38596491
MAESTRÍA
53.63085832
MAESTRÍA
47.07407407
DOCTORADO
50.77179452
ESTUDIANTE
44.09454191
MAESTRÍA
50.89056506
ESTUDIANTE
43.41520468
ESTUDIANTE
48.66061841
DOCTORADO
43.23781676
MAESTRÍA
52.67230843
ESTUDIANTE
41.82066277
ESTUDIANTE
47.98778555
MAESTRÍA
41.57212476
ESTUDIANTE
48.23106247
MAESTRÍA
41.21539961
MAESTRÍA
46.83381069
DOCTORADO
40.8245614
ESTUDIANTE
45.52452004
MAESTRÍA
40.79824561
ESTUDIANTE
43.28708589
ESTUDIANTE
33.09835159
ESTUDIANTE
41.03983895
MAESTRÍA
32.1839986
ESTUDIANTE
41.53716416
ESTUDIANTE
58.49961104
ESTUDIANTE
43.38891669
ESTUDIANTE
56.18983249
ESTUDIANTE
39.98564149
MAESTRÍA
51.46872891
ESTUDIANTE
39.42669945
ESTUDIANTE
53.4198814
MAESTRÍA
38.45267793
ESTUDIANTE
53.7674174
ESTUDIANTE
39.80270585
ESTUDIANTE
50.90286877
ESTUDIANTE
37.09940719
ESTUDIANTE
49.49529961
DOCTORADO
41.13772888
DOCTORADO
50.07639845
ESTUDIANTE
34.4219837
ESTUDIANTE
48.55589372
MAESTRÍA
40.28758583
ESTUDIANTE
LA PRUEBA F.
El primer paso es ordenar los datos de acuerdo al valor nominal que le corresponde para así obtener:
El número de datos, el promedio y la desviación estándar de cada uno de los valores nominales.
De la TABLA 1 obtenemos tres valores nominales que toma la variable GRADO ESCOLAR, estos tres valores son:
DOCTORADO, ESTUDIANTE Y MAESTRÍA.
La siguiente tabla nos muestra estos resultados.
TABLA 2
GRADO ESCOLAR
CALIFICACIÓN
TOTALES
DOCTORADO
ESTUDIANTE
MAESTRÍA
cuad med
7133.522799
2828.000955
2089.735312
2215.78653
desviación
8.477715089
10.44722904
8.383858417
4.69392914
media
47.29390233
53.17895218
45.71362283
47.0721418
n
64
11
39
14
SUMA CUADRADOS
147677.5588
32199.45645
84170.66229
31307.4401
1
2
3
67.15204678
60.91130604
53.3460039
64.36842105
55.38986355
50.3547758
51.12768031
53.917154
48.3859649
47.07407407
52.15984405
44.0945419
49.49529961
51.86842105
43.2378168
38.71247563
50.63060429
41.2153996
67.63611386
43.41520468
53.4198814
62.77020467
41.82066277
48.5558937
48.66061841
41.57212476
53.6308583
46.83381069
40.8245614
47.9877855
41.13772888
40.79824561
48.2310625
33.09835159
45.52452
32.1839986
41.0398389
58.49961104
39.9856415
56.18983249
51.46872891
53.7674174
50.90286877
50.07639845
39.5662768
39.07309942
34.95321637
34.27777778
34.27192982
60.88483775
56.50144025
51.76861802
50.77179452
50.89056506
52.67230843
43.28708589
41.53716416
43.38891669
39.42669945
38.45267793
39.80270585
37.09940719
34.4219837
40.28758583
Siendo:
Obtenemos:
Para nuestro ejemplo:
c = 3 número de columnas (número de valores nominales DOCTORADO, ESTUDIANTE Y MAESTRÍA)
n = 64 total de datos
n1 =11 DOCTORADO
n2 = 39 ESTUDIANTE
n3 =14 MAESTRÍA
CM =64 ( 47.29390233)2 =64(2236.713198) = 143149.6446
SCC = (11(2828.000955)+39(2089.735312)+14(2215.78653))-143149.6446
SCC = (31108.01051+81499.67717+31021.01142) ))-143149.6446
SCC = 143628.6991-143149.6446
SCC= 479.0544662
SCE = SCT – SCC =4527.914147 – 479.0544662 = 4048.859681
g.l. 1 = c-1 = 3-1 = 2
g.l. 2 = n-c = 64 – 3 = 61
a (alfa) se obtendría mediante la siguiente integral:
Para ello necesitamos F, g.l. 1 y g.l. 2
Que son:
F =3.608710198
g.l. 1 = 2
g.l. 2 = 61
La función anterior no se puede integrar de manera explícita por lo que para resolverla es necesario usar métodos numéricos de integración.
Mediante las hojas de cálculo de Microsoft Excel es posible calcular el valor de a escribiendo para este ejemplo:
=DISTR.F(3.608710198, 2,61)
Ya que: F = 3.608710198 , g.l. 1 = 2 Y g.l. 2 = 61
Haciendo esto, obtenemos:
a = 0.033018211
El significado de a (alfa) y su interpretación
El método de análisis de varianza para comparación de promedios parte del supuesto inicial de que no existe diferencia entre los promedios y que los resultados de la muestra son producto exclusivamente del azar.
A este supuesto inicial se le conoce como la hipótesis nula y se le designa con H0.
Dada esta suposición el valor de a es la probabilidad de que se obtenga una muestra como la que se obtuvo sin que exista al menos una diferencia entre los promedios, si el valor de a es muy pequeño, entonces tenemos dos opciones:
1.-) Se obtuvo una muestra muy extraña y con escasas probabilidades de ocurrir.
2.-)La hipótesis nula de que no hay diferencia entre los promedios es falsa siendo que los valores observados ocurrieron no por azar sino porque existe al menos una pareja de valores nominales cuyos promedios son diferentes, A esta opción se le conoce como la hipótesis alternativa y se le denomina Ha.
Si el valor de a es muy pequeño, se opta por la segunda opción pues es una explicación mas plausible que las variables estén correlacionadas a que haya ocurrido un hecho rarísimo.
Para nuestro ejemplo tenemos que:
a = 0.033018211
Esto significa que la probabilidad sería un poco mayor al del 3 % para que ocurra una muestra como la que se obtuvo.
Otra forma de percibir la probabilidad de alfa es obteniendo el reciproco de a esto es:
a -1 = 1 / a
a -1 = 1 / 0.033018211
a -1 = 30.28631684
a -1 Significa que la probabilidad de ocurrencia es de uno en 30.
También tenemos lo que es el nivel de significancia o intervalo de confianza (I.C).
I.C. = 1 - a
I.C. = 1 - 0.033018211
I.C. = 0.966981789
I.C. = 96.698 %
Tenemos entonces para nuestro ejemplo dos opciones.
1.-) Los resultados de esta muestra son producto exclusivamente del azar y ocurrió algo que ocurre una de cada 30 veces (hipótesis nula H0 ).
2.-) No ha ocurrido un hecho extraño con pocas posibilidades de ocurrencia sino que ha ocurrido un hecho común donde existe al menos una pareja de valores nominales cuyos promedios son diferentes (hipótesis alternativa Ha ).
¿Cuál es la opción que tomaríamos para este caso?
Se tiene un criterio que es enteramente convencional pues no existe ninguna razón matemática para validarlo; de que con valores de a menores o iguales a 0.05, se opta por la hipótesis alternativa Ha, esto es que al menos una pareja de los valores nominales tienen promedios que son diferentes en tanto que para valores de a mayores de 0.05 se opta por la hipótesis nula H0, esto no hay ninguna diferencia estadísticamente significativa entre los promedios de los valores nominales.
Una a = 0.05 implica un nivel de significancia de o intervalo de confianza (I.C.) de:
I.C. = 1 - a
I.C. = 1 � 0.05
I.C. = 0.95
I.C. = 95 %
A este criterio se le conoce como un nivel de significancia del 95 %
Si aplicamos este criterio a nuestro ejemplo, tenemos que:
a = 0.033018211
0.033018211< 0.05
o
I.C. = 96.698 %
96.698 % > 95 %
Lo que implica la hipótesis alternativa Ha estos es existe al menos una pareja de valores nominales cuyos promedios son diferentes.
La siguiente tabla (TABLA 3) nos muestra el resultado del análisis de varianza entre la variable nominal GRADO ESCOLAR y la variable numérica CALIFICACIÓN como resultado de este ejemplo.
TABLA 3
Nombre
nombre
Alfa
I.C.
g.l. 1
g.l. 2
F
CALIFICACIÓN
GRADO ESCOLAR
0.033018211
0.966981789
2
61
3.608710198
Si:
No existe ninguna diferencia estadísticamente significativa entre los promedios de los valores nominales H0 (hipótesis nula) el problema termina, pero si consideramos la hipótesis alternativa Ha tenemos que analizar en que pareja o parejas de valores, hay una diferencia estadísticamente significativa en el promedio, en nuestro ejemplo, nuestro nivel de significancia o intervalo de confianza rebasa muy ligeramente el criterio del 95 %.
Para analizar cada una de las parejas, se hace una prueba t de student para comparar si existe o no diferencia entre las dos medias.
La siguiente tabla (TABLA 4) nos muestra el nivel de significancia o intervalo de confianza I.C. en la prueba t de student para cada una de las combinaciones de los diferentes valores nominales.
TABLA 4
COMBINACIONES
VALORES
3
3
g.l. 1
g.l. 2
alfa
I . C. crit
var num
Var nom
F
I . C.
2
61
0.033018211
0.966981789
PROMEDIO TOTAL
GRADO ESCOLAR
3.609
95%
valido
t
n
desvi
media
valor
VALOR
VALOR
ALFA
I . C .
DIF
11
10.44722904
53.17895218
DOCTORADO
DOCTORADO
ESTUDIANTE
0.017
0.983
7.465
64
8.477715089
47.29390233
TOTALES
DOCTORADO
MAESTRIA
0.062
0.938
6.107
14
4.693929139
47.07214178
MAESTRÍA
ESTUDIANTE
MAESTRIA
0.569
0.431
-1.359
39
8.383858417
45.71362283
ESTUDIANTE
CONCLUSIONES
Si tomamos el criterio de 95 %, veremos que solamente existe una diferencia estadísticamente significativa entre los valores nominales de DOCTORADO Y ESTUDIANTE pues el I.C. es del 98.3 %, en las otras dos parejas, DOCTORADO Y MAESTRÍA, el I.C. es de 93.8 % por lo que para el criterio del 95 % no existe diferencia significativa, si tomáramos como criterio un nivel de significancia del 90 %, entonces optaríamos por la hipótesis alternativa de que si hubiese diferencia entre las calificaciones de las personas de DOCTORADO Y MAESTRÍA. Finalmente para ESTUDIANTE Y MAESTRÍA el nivel de significancia I.C. es de 43.1 % por lo que no podemos afirmar que exista diferencia entre los promedios de ESTUDIANTE Y MAESTRÍA.