Curso de R:

Capitulo 12: Introducción al análisis de la varianza.

Este capítulo quizá debía haber sido el siguiente a los capítulos dedicados a la modelización pero por ser muy extenso lo he ido dejando porque me parecía interesante manejar matrices (Capítulo 9: Componentes principales) y manejar paquetes y análisis gráficos de mayor nivel (Capítulos 10 y 11). El análisis de la varianza nos es imprescindible para posteriormente desarrollar los capítulos dedicados al muestreo y métodos de remuestreo que pretendo que sean los capítulos estrella de este pequeño curso que voy contruyendo en mis ratos libres.

Comencemos estableciendo conceptos. Lo primero que hacemos es plantear una hipótesis que va a motivar un experimento, elegimos el diseño para nuestro experimento y recogemos los datos y los analizamos mediante el análisis de la varianza que consiste en descomponer la variabilidad total de los datos en sumandos cada uno de ellos asignable a una fuente de variación; posteriormente ya sacamos conclusiones. Lo que voy a contar viene recogido en los libros:

*MONTGOMERY, D.C.: Diseño y Análisis de Experimentos. Grupo Editorial Iberoamérica, 1991.


*PEÑA, D.: Estadística: Modelos y Métodos, vol. II: Modelos Lineales y Series Temporales, Alianza Universidad Textos, 1992

En concreto "el montgomery" es el lbro que seguí en mi etapa de estudiante de estadística y es el que empleo para hacer estas líneas.

Conceptos y definiciones:

Variable repuesta: Variable cuantitativa sobre la que realizamos el estudio asociada al experimento.

Factor: Condiciones que se manipulan en un experimento que afectan a la variable respuesta.

Nivel de un factor: Maneras de presentarse un factor

Tratamientos: Condiciones bajo las cuales se realiza el experimento, son convinaciones de factores.

Unidades experimentales: Sujetos sometidos a los tratamientos sobre los que se mide la variable respuesta.

Réplica: observación adicional de un mismo tratamiento.

Para diseñar un experimento se tienen en cuenta como son las unidades experimentales y la asignación de tratamientos. Según esto tenemos estructuras de diseño y estructuras de tratamiento:

Estructuras de diseño:

Estructuras de tratamiento:

Comenzamos con el diseño más básico de todos:

Diseño unifactorial completamente aleatorizado:

Partimos de unidades experimentales homogéneas y queremos estudiar la influencia de un solo factor midiendo la variable respuesta. La tabla del análisis de la varianza (ANOVA) es:

Fuente de variación Sumas de cuadrados Grados de Libertad Cuadrados Medios Test F
Factor grupos tratamientos(BETWEEN) SCTr a-1 CMTr=SCTr/a-1 U=CMTr/CME
Error(WITHIN) SCE N-a CME=SCE/N-a  
Total SCT N-1    

Para realizar el análisis de la varianza con R hemos de determinar el modelo con el que queremos trabajar. Si recordamos en el capítulo 7 para crear el objeto modelo lineal empleábamos la función lm(Y~X), creábamos el modelo probabilístico Y=X+e de variables cuantitativas, ahora vamos a crear otro modelo probabilístico Yij=media_i+e_ij donde la media_i es una constante conocida que es la respuesta media bajo el tratamiento i y e_ij es la parte probabilísitica que cumple una serie de condiciones. Sobre este modelo realizaremos el análisis de la varianza con la función aov(Y~X) donde Y es la variable respuesta que es la variable cuantitativa asociada al experimento y X es la condición bajo la cual mido la variable respuesta, X es el factor.

Como siempre veamos como trabajar con R mediante un ejemplo:

Ejemplo 12.1:

En un tratamiento contra la hipertensión se seleccionaron 40 enfermos de características similares. A cada enfermo se le administró uno de los fármacos P, A, B, AB, al azar, formando 4 grupos. El grupo P tomó placebo (fármaco inocuo), el grupo A tomó un fármaco "A", el grupo B un fármaco "B" y el grupo AB una asociación entre "A" y "B". Para valorar la eficacia de los tratamientos, se registró el descenso de la presión diastólica desde el estado basal (inicio del tratamiento) hasta el estado al cabo de una semana de tratamiento. Los resultados, después de registrarse algunos abandonos, fueron los siguientes:
P: 10, 0, 15, -20, 0, 15, -5
A: 20, 25, 33, 25, 30, 18, 27, 0, 35, 20
B: 15, 10, 25, 30, 15, 35, 25, 22, 11, 25
AB: 10, 5, -5, 15, 20, 20, 0, 10

¿Tenemos diferencias entre los tratamientos?

Introducimos los datos:

> presion<-c(10, 0, 15, -20, 0, 15, -5 
+ ,20, 25, 33, 25, 30, 18, 27, 0, 35, 20
+ ,15, 10, 25, 30, 15, 35, 25, 22, 11, 25,
+ 10, 5, -5, 15, 20, 20, 0, 10 )
> grupos<-c("P","P","P","P","P","P","P","A","A","A","A","A","A","A","A","A","A",
+ "B","B","B","B","B","B","B","B","B","B","AB","AB","AB","AB","AB","AB","AB","AB")
> grupos<-factor(grupos)
> grupos
[1] P P P P P P P P A A A A A A A A A A B B B B B B B
[26] B B B AB AB AB AB AB AB AB AB
Levels: A AB B P

Hemos creado dos vectores presion que recoge la variable respuesta y grupos que recoge el factor, para su creación hemos de emplear la función factor con ella R reconoce el tipo de variable que contiene ese vector creando un vector de factores. Realicemos el análisis de la varianza, con él haremos el contraste de igualdad de medias para establecer si hay diferencias significativas entre las medias de los distintos grupos:

> unifact<-aov(presion~grupos)
> summary(unifact)
Df Sum Sq Mean Sq F value Pr(>F)
grupos 3 2492.61 830.87 8.5262 0.0002823 ***
Residuals 31 3020.93 97.45
---
Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Se rechaza la hipótesis nula de igualdad de medias en *** que planteamos con el test F así pues hay diferencias entre los tratamientos. Para ver cual de estos tratamientos son diferentes contamos con métodos de test de recorrido estudentizado y con métodos de contrastes múltiples. Con R podemos programar el test que nos interese, pero el módulo base tiene test de recorrido estudentizado. En este caso vamos a ver el test de Tuckey que compara todas las posibles medias dos a dos y basándose en una distribución q alfa(k,n) del rango estudentizado determina una diferencia mínima significativa para que dos medias sean distintas. En R el test de Tukey se realiza con la función TuckeyHSD:

> TukeyHSD(unifact)
       Tukey multiple comparisons of means
       95% family-wise confidence level       
Fit: aov(formula = presion ~ grupos)
$grupos
         diff lwr upr
         AB-A -13.925000 -26.6337332 -1.216267
         B-A -2.000000 -13.9819085 9.981909
         P-A -21.157143 -34.3605630 -7.953723
         B-AB 11.925000 -0.7837332 24.633733
         P-AB -7.232143 -21.0985076 6.634222
         P-B -19.157143 -32.3605630 -5.953723

Ya tenemos las diferencias, ahora necesitamos compararlas con la diferencia mínima que se considera significativa, para esto contamos con la distribución q de recorrido estudentizado, que se determina en R con: qtukey(p, nmeans, df), donde p es la probabilidad (alfa), nmeans es el número de niveles y df los grados de libertad que serán N-a como en el error. Al valor de esta distribución hay que multiplicarle la raiz cuadrada de la división de la estimación de la varianza (CME=SCE/N-a ) por el número de tratamientos, esto es por la forma en que creamos la diferencia de medias. En caso de tener un diseño balanceado dividimos por el mínimo de tratamientos como es nuestro caso. Todo esto traducido a R:

> (qtukey(0.05,4,31))*sqrt(97.45/7)
       [1] 2.819698

Este es el valor referencia, valores absolutos por encima de éste ya consideramos diferencias significativas. De nuevo repetir como se halla este número: qtukey(0.05,4,31) calcula el valor de la distribución q de Tukey para 0.05 ya que estamos con una confianza del 95%, 4 niveles y 31 grados de libertad; sqrt(97.45/7) 97.5 es la estimación de la varianza (el cuadrado medio del error) que se encuentra en la tabla ANOVA y 7 el mínimo número de tratamientos que son los pacientes que tomaron placebo. El valor de de 2.82 luego sólo la diferencia entre A y B se puede considerar que no es significativa, no hay diferencias entre los pacientes que tomaban A o B, sin embargo si hay diferencias entre todos los demás.

En resumen se puede determinar que los pacientes que han tomado placebo o la convinación entre ambos medicamentos AB han tenido una mayor reducción de la presión diastólica desde el estado basal (inicio del tratamiento) hasta el estado al cabo de una semana de tratamiento, siendo el placebo el tratamiento que más ha hecho reducir dicha presión.

Volver a la página principal.

Menú del curso

Capítulo 13: Diseños Bifactoriales.

 

 

 

1