CvdB

análisis de la regresión y
análisis de la varianza

Desarrollo: Cualquiera que sea el origen de los datos experimentales que deseamos analizar para extraer conclusiones prácticas (p.ej., planillas de operación, ensayos preprogramados intencionalmente, etc.) debemos recurrir a la estadística para que nos oriente en la tarea. La forma más poderosa, quizás, de analizar estos datos es mediante los dos tipos de análisis mencionados en el título. Ambos tipos están ligados entre sí por una teoría coherente que permite transformar uno de los dos tipos de análisis en el otro.

Empecemos por el modelo más simple. Sea un modelo lineal y de un único factor X. Este modelo lineal, llamado tambien de primer orden, resulta ser
OMEGA = b0 + b1X
modelo denominado de regresión, donde OMEGA es el criterio a maximizar, b0 es la ordenada al origen y b1 es la pendiente de la recta. Ya que las incógnitas o parámetros b0 y b1 son solamente dos, nos alcanzan dos niveles distintos para la variable X para identificarlos. Sin embargo, habrá que repetirlos para no dejarnos confundir por el error experimental.

Este caso sencillo se puede mirar también desde otra óptica. Un modelo equivalente, denominado de análisis de la varianza, es el de escribir
OMEGA = mu + alfai + e ij
donde mu = el valor medio del ensayo, alfa es la incidencia sobre los resultados del factor X que estamos midiendo y e es el error experimental.

Para entender este modelo afirmemos que el resultado de una tentativa en el nivel i durante la replicación j , es:
gammaij = gammaij
     i = 1,2,.., n (niveles) y
     j = 1,2,... m (replicaciones)
Sumando y restando a la igualdad tanto el promedio de todas las n.m tentativas, gamman como el promedio de los m ensayos realizados en el nivel i del único factor, gammai., llegamos a que
gammaij = gamma.. + (gammai. - gamma..) + (gammaij - gammai.)
donde los tres sumandos que han quedado explícitos son, respectivamente,

Así como está autorizado usar el modelo de regresión, es equivalente usar el modelo de análisis de la varianza, que contrasta la incidencia del factor con respecto a la incidencia del error experimental.
EJEMPLO NUMÉRICO

Repitamos tres veces un ensayo con un único factor, temperatura, en dos niveles, Las eficiencias ("OMEGA") obtenidas en las seis corridas (que se estiman suficientes para conocer el error experimental), son:
-----------   Nivel 0    Nivel 1
  Réplica 1     79     90
  Réplica 2     80     91
  Réplica 3     81     89
 
      Niveles  i = 0, 1
      Réplicas j = 0,1,2

A simple vista ya se puede analizar este sencillo caso, donde no cabe duda que es preferible usar 110º en lugar de 105º. Pero para aplicar las fórmulas previas, podemos resolver el problema por análisis de la regresión y luego por análisis de la varianza.

ANÁLISIS DE LA REGRESIÓN
---- fi xi yi = gammaij Ki
--- 1 0   79   80
--- 1 0   80   81
--- 1 0   81   82
--- 1 1   90   92
--- 1 1   91   93
--- 1 1   89   91
SIGMA 6 3 510 519
MATRIZ DE CUADRADOS, DE PRODUCTOS CRUZADOS Y DE CÁLCULOS DE DOOLITTLE
---- (1) xi yi Ki
fi 6 3 510 519 = 6+3+510
fixi - 3 270 276 = 270 +3+3
fiyi - - 43504 44284 = 43504+510+270
Fila 4 - 1,5 15 16,5 = 1,5+15
Fila 5 - - 154 169 = 15+154
Fila 6 - - 4 4 = 4
Cálculos                           
b11 = (3) - (3/6)(3) = 1,5
b12 = (270) - (3/6)(510) = 15
b13 = (276) - (3/6)(519) = 16,5
b22 = (43504) - (510/6)(510) = 154
b23 = (44284) - (510/6)(519) = 169
c11 = (154) - (15/1,5)(15) = 4
c12 = (169) - (15/1,5)(16,5) = 4
Cálculos de parámetros
xraya = 3/6 = 0,5
yraya = 510/6 = 85
b = b12/b11 = 10
a = yraya- bxraya = 85 - (10)(0,5) = 80. 

Regresión:

OMEGA = 80 + 10 X

X = 0 si nivel = 0
x = 1 si nivel = 1

ANALISIS DE LA VARIANZA
x.. = mu = media de los seis ensayos = 510/6 = 85
gamma0. = media de los ensayos a nivel 0 = (79+80+81)/3 = 80

gamma1. = media de los ensayos a nivel 1 = (90+91+89)/3 = 90

e01 = gamma01 - gamma0. = 79 - 80 = -1

e02 = gamma02 - gamma0. = 80 - 80 = 0

e03 = gamma03 - gamma0. = 81 - 80 = 1

e11 = gamma11 - gamma1. = 90 - 90 = 0

e12 = gamma12 - gamma1. = 91 - 90 = 1

e13 = gamma13 - gamma1. = 89 - 90 = -1

alfa0 = gamma0. - gamma.. = 80 - 85 = -5

alfa1 = gamma1. - gamma.. = 90 - 85 = 5

Entonces, p. ej., para

gammaij = gamma.. + (gammai. - gamma..) +
(gammaij - gammai.) =
= gamma.. - alfai) +
eij 
gamma02 = gamma.. +  alfa0) +
e02 = 85 - 5 + 0 = 80 (nivel 0, réplica 2)
Prueba de la importancia del factor temperatura:

En el caso del análisis de la regresión se debe probar que la pendiente 10 no admite el 0 como solución, o sea que beta no es cero. (beta es el verdadero valor de la pendiente, b es la pendiente muestral).

En el caso del análisis de la varianza, se debe probar que la variabilidad del factor alfai es significativa, pese a la influencia del error experimental eij, con su propia variabilidad.

Resolveremos esto último calculando las variabilidades de los distintos paréntesis del modelo, o sea del paréntesis para alfa y del paréntesis para el error. La variabilidad surge de elevar al cuadrado el paréntesis para cada caso particular y sumar, segun la siguiente tabla
gammaij gamma.. gammai. (gammai. - gamma..) (gammaij - gammai.) (gammai. - gamma..) 2 (gammaij - gammai.) 2
79 85 80 80-85=-5 79-80= -1  25 1
80 85 80 80-85= -5 80-80= 0  25 0
81 85 80 80-85 81-80= 1  25 1
90 85 90 90-85= 5 90-90= 0  25 0
91 85 90 90-85 = 5 91-90= 1  25 1
89 85 90 90-85 = 5 89-90 = -1  25 1
--- --- --- --- SIGMA: 150 4

Los dos paréntesis a los cuales nos estamos refiriendo ya han sido analizados más arriba, en el modelo de análisis de la varianza. La conclusión a la cual llegamos, hasta esta altura del análisis, es que la suma de los cuadrados (SC) del primer paréntesis vale 150, mientras que el segundo tiene su proia SC valiendo 4. Es habitual ubicar prolijamente esa valiosa información en tablas llamadas de análisis de la varianza, en conjunto con los grados de libertad (GL) y de los cuadrados medios (CM) que surgen de la división SC/GL. O sea que la única información faltante es la de los GL, que se calculan restando uno al número de datos, que aquí son seis (restando quedan GL = 5). Si tenemos seis datos y la suma de ellos, podemos alterar (un poco) a lo sumo cinco cualesquiera y el sexto queda esclavizado en un valor que respeta la suma.

La primera fuente de variación se ha referido alfai con dos niveles. Es un único factor, caso en que restando uno al 2 de los niveles queda GL = 1. El otro casillero vacante se llena por diferencia, o sea 5-1 = 4. F (parámetro del análisis de la varianza) se calcula como cociente entre CM del factor y CM del error.

TABLA DE ANALISIS DE LA VARIANZA (ANOVA)
FUENTE DE VARIACION SC GL CM F
primer paréntesis para X, el factor 150 1 150 150***
segundo paréntesis para error     4 4     1 ----
(gammaij-gamma..)2 para TOTAL 154 4 --- ---

Esta tabla es crucial en el estudio del método de análisis de la varianza.

Nota 1 - La variabilidad total es la suma de la variabilidad del factor (primer paréntesis) más la variabilidad del error (segundo paréntesis). Sumando miembro a miembro queda (gammaij-gamma..), la variabilidad total por todo concepto. Tenemos todos los datos para calcular su cuadrado:
Dato número gammaij gamma.. diferencia (diferencia)2
1 79 85 -6 36
2 80 85 -5 25
3 81 85 -4 16
4 90 85 5 25
5 91 85 6 36
6 89 85 4 16
--- --- --- SIGMA = 154

que, por supuesto, no difiere de lo obtenido en la tabla de anova. Esto verifica lo afirmado por la teoría: las variabilidades parciales son aditivas y la suma da lugar a la variabilidad total.

Nota 2 - No se acostumbra dividir 154 por 5 puesto que el resultado no tiene uso alguno.

Nota 3 - A partir de este sitio la palabra alfa deja de ser incidencia del factor: es nivel de significación estadística. En la última columna aparece el contraste de F, que se usa para contrastar dos variabilidades o varianzas. El casillero con tres asteriscos se obtiene dividiendo el CM del factor por el CM del error y, para probar que el factor es importante, debiera ser numericamente grande. Así resultó en este caso, ya que contrastando el valor de 150 con las tablas de valores críticos de F, así se verifica. La tabla de F tiene tres parámetros. Dos de ellos son los grados de libertad del numerador y del denominador (no confundir) y el tercero es la probabilidad. Se acostumbra poner asteriscos (si corresponde) a continuación del valor numérico de F. Un asterisco significa alfa = 0,05 o menos; dos significan alfa = 0,01 o menos; tres significan alfa = 0,001 o menos. Siempre F debe ser lo más grande posible (una cola) pues el valor esperado del numerador es mayor que el valor esperado del denominador, cuando H0 (H0 es la hipótesis nula que afirma que ambas medias son iguales). Por eso se entra siempre en tablas con p = 1 - alfa (una cola).

Nota 4 - Un lector cuidadoso puede observar que el 154 y el 4 aparecen tanto en el análisis de la regresión ya hecho y en el reciente análisis de la varianza. ¿A qué conclusión puede llevar esa coincidencia? Una de ellas es que se podrían replantear las conclusiones del análisis de la regresión bajo la cómoda forma de una tabla de análisis de la varianza, que apaenas difiere en el tema de las fuentes de variación con respecto a la forma previa.

REGRESION PRESENTADA COMO ANOVA

FUENTES DE VARIACION SC GL CM F
Regresión (beta distinta de 0) b12-c11 = 150 1 150 150***
Residual (error experimental) c11 =           4 4     1 ---
Total b12 =       154 5 ---- ----

Nota 5 - Hay recursos algebraicos para calcular en forma breve algunos de los valores que aparecen en las tablas y despejar de ellos el resto. No son los que aquí se han seguido. Es frecuente calcular la SC del error o residual por diferencia entre el total y las otras fuentes.

Con este ejemplo numérico concluye el muy abreviado tratamiento de dos temas tan importantes como el análisis de la regresión y el de la varianza para modelos de primer orden. Los tratamientos de segundo orden o superior quedan postergados hasta ver "número y selección de niveles".

El lector debe darse cuenta que el análisis final de los numerosos diseños mencionados previamente es muy conveniente que se realice a la manera de la reciente tabla de REGRESION PRESENTADA COMO ANOVA.

19.may.2000

Pulsar tecla de vuelta

Vuelta a Portada


Glosario de Carlos von der Becke.

Hosted by www.Geocities.ws

1