4. Varianza de la regresión de la muestra

 

Es un modo alternativo de hacer contrastes sobre el coeficiente a1. Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación. Para el ejemplo:

A partir de una muestra aleatoria, la teoría estadística permite:
i) estimar los coeficientes a
i del modelo (hay dos procedimientos: mínimos cuadrados y máxima verosimilitud que dan el mismo resultado).
ii) estimar la varianza de las variables Y|xi llamada cuadrados medios del error y representada por s2 o MSE. A su raíz cuadrada se le llama error estándar de la estimación.
iii) conocer la distribución muestral de los coeficientes estimados, tanto su forma (t) como su error estándar, que permite hacer estimación por intervalos como contrastes de hipótesis sobre ellos.

Ejemplo 3 : Para el diseño del ejemplo una muestra produce los siguientes datos:

X (sal) Y (Presión)
1,8 100
2,2 98
3,5 110
4,0 110
4,3 112
5,0 120

La "salida" de un paquete estadístico es:

86,371 presión arterial media sin nada de sal.
6,335 aumento de presión por cada gr de sal; como es distinto de 0 indica correlación. La pregunta es ¿podría ser 0 en la población? En términos de contrastes de hipótesis

H0 : a1 = 0
H1 : a1
¹ 0

según iii)

 

análisis de la regresión y análisis de la varianza

Desarrollo: Cualquiera que sea el origen de los datos experimentales que deseamos analizar para extraer conclusiones prácticas (p.ej., planillas de operación, ensayos preprogramados intencionalmente, etc.) debemos recurrir a la estadística para que nos oriente en la tarea. La forma más poderosa, quizás, de analizar estos datos es mediante los dos tipos de análisis mencionados en el título. Ambos tipos están ligados entre sí por una teoría coherente que permite transformar uno de los dos tipos de análisis en el otro.

Empecemos por el modelo más simple. Sea un modelo lineal y de un único factor X. Este modelo lineal, llamado tambien de primer orden, resulta ser

OMEGA = b0 + b1X

modelo denominado de regresión, donde OMEGA es el criterio a maximizar, b0 es la ordenada al origen y b1 es la pendiente de la recta. Ya que las incógnitas o parámetros b0 y b1 son solamente dos, nos alcanzan dos niveles distintos para la variable X para identificarlos. Sin embargo, habrá que repetirlos para no dejarnos confundir por el error experimental.

Este caso sencillo se puede mirar también desde otra óptica. Un modelo equivalente, denominado de análisis de la varianza, es el de escribir

OMEGA = mu + alfai + e ij

donde mu = el valor medio del ensayo, alfa es la incidencia sobre los resultados del factor X que estamos midiendo y e es el error experimental.

Para entender este modelo afirmemos que el resultado de una tentativa en el nivel i durante la replicación j , es:

gammaij = gammaij

     i = 1,2,.., n (niveles) y
     j = 1,2,... m (replicaciones)

Sumando y restando a la igualdad tanto el promedio de todas las n.m tentativas, gamman como el promedio de los m ensayos realizados en el nivel i del único factor, gammai., llegamos a que

gammaij = gamma.. + (gammai. - gamma..) + (gammaij> - gammai.)

donde los tres sumandos que han quedado explícitos son, respectivamente,

Así como está autorizado usar el modelo de regresión, es equivalente usar el modelo de análisis de la varianza, que contrasta la incidencia del factor con respecto a la incidencia del error experimental.

EJEMPLO NUMÉRICO

Repitamos tres veces un ensayo con un único factor, temperatura, en dos niveles,

Las eficiencias ("OMEGA") obtenidas en las seis corridas (que se estiman suficientes para conocer el error experimental), son:

-----------   Nivel 0    Nivel 1
  Réplica 1     79     90
  Réplica 2     80     91
  Réplica 3     81     89
      Niveles  i = 0, 1
      Réplicas j = 0,1,2

A simple vista ya se puede analizar este sencillo caso, donde no cabe duda que es preferible usar 110º en lugar de 105º. Pero para aplicar las fórmulas previas, podemos resolver el problema por análisis de la regresión y luego por análisis de la varianza.

ANÁLISIS DE LA REGRESIÓN

---- fi xi yi = gammaij Ki
--- 1 0   79   80
--- 1 0   80   81
--- 1 0   81   82
--- 1 1   90   92
--- 1 1   91   93
--- 1 1   89   91
SIGMA 6 3 510 519

MATRIZ DE CUADRADOS, DE PRODUCTOS CRUZADOS Y DE CÁLCULOS DE DOOLITTLE

---- (1) xi yi Ki
fi 6 3 510 519 = 6+3+510
fixi - 3 270 276 = 270 +3+3
fiyi - - 43504 44284 = 43504+510+270
Fila 4 - 1,5 15 16,5 = 1,5+15
Fila 5 - - 154 169 = 15+154
Fila 6 - - 4 4 = 4
Cálculos
b11 = (3) - (3/6)(3) = 1,5
b12 = (270) - (3/6)(510) = 15
b13 = (276) - (3/6)(519) = 16,5
b22 = (43504) - (510/6)(510) = 154
b23 = (44284) - (510/6)(519) = 169
c11 = (154) - (15/1,5)(15) = 4
c12 = (169) - (15/1,5)(16,5) = 4
Cálculos de parámetros
xraya = 3/6 = 0,5
yraya = 510/6 = 85
b = b12/b11 = 10
a = yraya- bxraya = 85 - (10)(0,5) = 80. 

Regresión:

OMEGA = 80 + 10 X

X = 0 si nivel = 0
x = 1 si nivel = 1

ANALISIS DE LA VARIANZA

x.. = mu = media de los seis ensayos = 510/6 = 85
gamma0. = media de los ensayos a nivel 0 = (79+80+81)/3 = 80

gamma1. = media de los ensayos a nivel 1 = (90+91+89)/3 = 90

e01 = gamma01 - gamma0. = 79 - 80 = -1

e02 = gamma02 - gamma0. = 80 - 80 = 0

e03 = gamma03 - gamma0. = 81 - 80 = 1

e11 = gamma11 - gamma1. = 90 - 90 = 0

e12 = gamma12 - gamma1. = 91 - 90 = 1

e13 = gamma13 - gamma1. = 89 - 90 = -1

alfa0 = gamma0. - gamma.. = 80 - 85 = -5

alfa1 = gamma1. - gamma.. = 90 - 85 = 5

Entonces, p. ej., para

gammaij = gamma.. + (gammai. - gamma..) + (gammaij - gammai.) =  gamma.. - alfai) + eij
gamma02 = gamma.. +  alfa0) + e02 = 85 - 5 + 0 = 80 (nivel 0, réplica 2)

Prueba de la importancia del factor temperatura:

En el caso del análisis de la regresión se debe probar que la pendiente 10 no admite el 0 como solución, o sea que beta no es cero. (beta es el verdadero valor de la pendiente, b es la pendiente muestral).

En el caso del análisis de la varianza, se debe probar que la variabilidad del factor alfai es significativa, pese a la influencia del error experimental eij, con su propia variabilidad.

Resolveremos esto último calculando las variabilidades de los distintos paréntesis del modelo, o sea del paréntesis para alfa y del paréntesis para el error. La variabilidad surge de elevar al cuadrado el paréntesis para cada caso particular y sumar, segun la siguiente tabla

gammaij gamma.. gammai. (gammai. - gamma..) (gammaij - gammai.) (gammai. - gamma..) 2 (gammaij - gammai.) 2
79 85 80 80-85=-5 79-80= -1  25 1
80 85 80 80-85= -5 80-80= 0  25 0
81 85 80 80-85 81-80= 1  25 1
90 85 90 90-85= 5 90-90= 0  25 0
91 85 90 90-85 = 5 91-90= 1  25 1
89 85 90 90-85 = 5 89-90 = -1  25 1
--- --- --- --- SIGMA: 150 4

Los dos paréntesis a los cuales nos estamos refiriendo ya han sido analizados más arriba, en el modelo de análisis de la varianza. La conclusión a la cual llegamos, hasta esta altura del análisis, es que la suma de los cuadrados (SC) del primer paréntesis vale 150, mientras que el segundo tiene su proia SC valiendo 4. Es habitual ubicar prolijamente esa valiosa información en tablas llamadas de análisis de la varianza, en conjunto con los grados de libertad (GL) y de los cuadrados medios (CM) que surgen de la división SC/GL. O sea que la única información faltante es la de los GL, que se calculan restando uno al número de datos, que aquí son seis (restando quedan GL = 5). Si tenemos seis datos y la suma de ellos, podemos alterar (un poco) a lo sumo cinco cualesquiera y el sexto queda esclavizado en un valor que respeta la suma.

La primera fuente de variación se ha referido alfai con dos niveles. Es un único factor, caso en que restando uno al 2 de los niveles queda GL = 1. El otro casillero vacante se llena por diferencia, o sea 5-1 = 4. F (parámetro del análisis de la varianza) se calcula como cociente entre CM del factor y CM del error.

 

 

 

TABLA DE ANALISIS DE LA VARIANZA (ANOVA)

FUENTE DE VARIACION SC GL CM F
primer paréntesis para X, el factor 150 1 150 150***
segundo paréntesis para error     4 4     1 ----
(gammaij-gamma..)2 para TOTAL 154 4 --- ---

 

Esta tabla es crucial en el estudio del método de análisis de la varianza.

Nota 1 - La variabilidad total es la suma de la variabilidad del factor (primer paréntesis) más la variabilidad del error (segundo paréntesis). Sumando miembro a miembro queda (gammaij-gamma..), la variabilidad total por todo concepto. Tenemos todos los datos para calcular su cuadrado:

Dato número gammaij gamma.. diferencia (diferencia)2
1 79 85 -6 36
2 80 85 -5 25
3 81 85 -4 16
4 90 85 5 25
5 91 85 6 36
6 89 85 4 16
--- --- --- SIGMA = 154

que, por supuesto, no difiere de lo obtenido en la tabla de anova. Esto verifica lo afirmado por la teoría: las variabilidades parciales son aditivas y la suma da lugar a la variabilidad total.

Nota 2 - No se acostumbra dividir 154 por 5 puesto que el resultado no tiene uso alguno.

Nota 3 - A partir de este sitio la palabra alfa deja de ser incidencia del factor: es nivel de significación estadística. En la última columna aparece el contraste de F, que se usa para contrastar dos variabilidades o varianzas. El casillero con tres asteriscos se obtiene dividiendo el CM del factor por el CM del error y, para probar que el factor es importante, debiera ser numericamente grande. Así resultó en este caso, ya que contrastando el valor de 150 con las tablas de valores críticos de F, así se verifica. La tabla de F tiene tres parámetros. Dos de ellos son los grados de libertad del numerador y del denominador (no confundir) y el tercero es la probabilidad. Se acostumbra poner asteriscos (si corresponde) a continuación del valor numérico de F. Un asterisco significa alfa = 0,05 o menos; dos significan alfa = 0,01 o menos; tres significan alfa = 0,001 o menos. Siempre F debe ser lo más grande posible (una cola) pues el valor esperado del numerador es mayor que el valor esperado del denominador, cuando H0 (H0 es la hipótesis nula que afirma que ambas medias son iguales). Por eso se entra siempre en tablas con p = 1 - alfa (una cola).

Nota 4 - Un lector cuidadoso puede observar que el 154 y el 4 aparecen tanto en el análisis de la regresión ya hecho y en el reciente análisis de la varianza. ¿A qué conclusión puede llevar esa coincidencia? Una de ellas es que se podrían replantear las conclusiones del análisis de la regresión bajo la cómoda forma de una tabla de análisis de la varianza, que apaenas difiere en el tema de las fuentes de variación con respecto a la forma previa.

 

REGRESION PRESENTADA COMO ANOVA

FUENTES DE VARIACION SC GL CM F
Regresión (beta distinta de 0) b12-c11 = 150 1 150 150***
Residual (error experimental) c11 =           4 4     1 ---
Total b12 =       154 5 ---- ----

Nota 5 - Hay recursos algebraicos para calcular en forma breve algunos de los valores que aparecen en las tablas y despejar de ellos el resto. No son los que aquí se han seguido. Es frecuente calcular la SC del error o residual por diferencia entre el total y las otras fuentes.

Con este ejemplo numérico concluye el muy abreviado tratamiento de dos temas tan importantes como el análisis de la regresión y el de la varianza para modelos de primer orden. Los tratamientos de segundo orden o superior quedan postergados hasta ver "número y selección de niveles".

El lector debe darse cuenta que el análisis final de los numerosos diseños mencionados previamente es muy conveniente que se realice a la manera de la reciente tabla de REGRESION PRESENTADA COMO ANOVA.

 

Regresión Lineal Múltiple

 

Se trata de predecir el valor de una variable respuesta (y) como función lineal de una familia de m variables explicativas (x1, x2, ..., xm), a partir de una muestra de tamaño n cuyas observaciones se ordenan matricialmente:

siendo yi la i-ésima variable respuesta y xi,j la j-ésima variable explicativa asociada a la observación i.

Así las cosas, se trata de ajustar los datos a un modelo de la forma

bajo las siguientes hipótesis:

  1. Los residuos ei son normales de media 0 y varianza común desconocida ; además, estos residuos son independientes.
  2. El número de variables explicativas (m) es menor que el de observaciones (n); esta hipótesis se conoce con el nombre de rango completo.
  3. No existen relaciones lineales exactas entre las variables explicativas.

El estimador del vector paramétrico es

siendo

habiéndose indicado la transposición matricial mediante el superíndice T.

El estimador insesgado de la varianza , conocido con el nombre de varianza residual, tiene por expresión

El coeficiente de determinación corregido, definido como

siendo

mide el ajuste del modelo, se interpreta como el porcentaje de variación de la variable respuesta explicada por el modelo; así, cuanto más se acerque R2 a 100, con más confianza se podrá considerar el modelo lineal como válido.

El contraste de regresión es imperativo a la hora de diagnosticar y validar el modelo que se está ajustando; consiste en decidir si realmente la variable respuesta y es función lineal de las explicativas x1, x2, ..., xm. Formalmente, el contraste se plantea en los siguientes términos:

H0: "no existe dependencia lineal: "

frente a la alternativa:

H1: "sí existe alguna dependencia lineal: ".

El estadístico de contraste es

que se distribuye como una Fm,n-m-1 de Snedecor. El contraste se realiza con un nivel de significación del 5%.

 


Caso

 

En una muestra de 25 hospitales, el analista ha recogido los siguientes datos sobre el costo anual en 1988 (variable respuesta), así como sobre el personal sanitario y el número de camas durante el msmo año.

 

Coste
hospitalario
Personal
sanitario
Número
de camas
1000 100 300
750 50 150
500 25 100
350 15 70
400 20 80
750 30 100
850 70 200
450 30 90
450 35 100
... ... ...

Se quiere ajustar un modelo lineal que devuelva el coste de mantenimiento hospitalario en función del personal sanitario y del número de camas.

En primer lugar observamos que el número de variables explicativas es 2, por lo que se necesitan estimar tres parámetros de regresión: 222.28 para el término independiente, 1.28 para la variable personal sanitario y 2.24 para el número de camas. La desviación típica residual y el coeficiente de determinación corregido toman los valores 107.80 y 76.49%, respectivamente. Finalmente, el contraste de regresión rechaza la hipótesis de independencia al nivel del 5%, dando a entender que no hay indicios de que el modelo lineal

y = 222.28 + 1.28 x1 + 2.24 x2

deba ser rechazado. Sin embargo, un análisis más detallado muestra que la inclusión de la variable personal sanitario no aporta información relevante, de modo que al eliminarla se obtiene el modelo

y = 232.34 + 2.55 x2,

con una desviación típica residual de 106.08 y un coeficiente de determinación de 77.23%, parámetros de diagnóstico ligeramente mejores que los anteriores. Para comprobar estos resultados, eliminar en el panel superior de entrada los datos centrales (100, 50, 25, 15, etc.) y volver a pulsar la barra central.

 

(Fuente: Colectivo Dr. Arruga (1999) Economía de la salud. Estadística para médicos. Clínica asistida por computadora.. CIE IE Dossat 2000, Madrid.)

 

Página principal

 

1

Hosted by www.Geocities.ws

1