9. Coeficiente de  determinación y análisis de varianza en regresión lineal

 

 

La varianza se calcula según la fórmula siguiente:

 S2   =____E (Xi  - Mx)2__

N

     Ejemplo Calcular la varianza para una distribución de calificaciones en la evaluación del desempeño (X), en una muestra conformada por 10 sujetos,

 

Sujeto

X

1

17

2

18

3

20

4

9

5

5

6

7

7

18

8

16

9

15

10

12

                                                              E X  = 137

                                                               Mx =  13,7

 Cálculo de la varianza

X

(Xi-Mx)

(Xi-Mx)2

17

3,3

10,89

18

4,3

18,49

20

6,3

39,69

9

-4,7

22,09

5

-8,7

75,69

7

-6,7

44,89

18

4,3

18,49

16

2,3

5,29

15

1,3

1,69

12

-1,7

2,89

                  E X   = 137

                 Mx     = 13,7

 

               E (Xi  -  Mx )2

                  =  240,1

 

     De tal modo que en la columna encabezada por (Xi – Mx) se anotan las diferencias entre cada valor de la variable X y la media 13,7 (previamente calculada) y en la columna  (xi- Mx)2  los cuadrados del valor correspondiente en la columna anterior. Así se llega al resultado:

 S2   =  240,1 / 10                             S2  = 24,01

    Análisis de varianza, comparación de las varianzas de los diferentes grupos de datos obtenidos en la observación, con el fin de determinar si existen o no diferencias en los valores medios de los datos de cada grupo.

    El análisis de varianza es una prueba que nos permite medir la variación de las respuestas numéricas como valores de evaluación de diferentes variables nominales.

    La prueba a realizar es de sí existe diferencia en los promedios para la los diferentes valores de las variables nominales; esta prueba se realiza para variables donde una tiene valores nominales y la otra tiene valores numéricos.

    En el siguiente ejemplo, se tiene la calificación de una prueba a personas con diferentes grados de escolaridad, lo que se intenta es probar si existe o no diferencia entre el grado escolar (variable nominal ) y el promedio de la calificación ( variable numérica ).

El Análisis de la Varianza.

    A continuación se expone como descomponer la variabilidad de la variable de interés Y cuando se ajusta un modelo de regresión múltiple.

8.5.1 El contraste conjunto de la F.

    Razonando como en el modelo de Regresión Lineal Simple, en cada observación muestral se puede hacer la siguiente descomposición

 

En base a las propiedades geométricas del modelo y utilizando el Teorema de Pitágoras, se obtiene

De esta igualdad se construye la siguiente tabla ANOVA  

 

    De esta tabla ANOVA se deduce el siguiente contraste acerca de la influencia “conjunta” del modelo de regresión en la variable respuesta.

 

por ser ésta una medida absoluta se compara con la varianza residual, lo que lleva a utilizar como estadístico del contraste el siguiente

 

 

donde Fk,n-(k+1) denota una variable aleatoria que sigue una distribución F con k y n - (k+1) grados de libertad. El contraste de la F es unilateral (de una cola) y generaliza el contraste de regresión expuesto para el modelo de regresión lineal simple.

    Sí el valor crítico (p-valor) del contraste es grande (mayor que el nivel de significación ) se acepta H0, que el modelo de regresión no es influyente y debe buscarse un modelo alternativo.

 

8.5.2 Contrastes individuales de la F.

    El contraste individual de la t que permite contrastar la influencia individual de la variable xi se deduce de la distribución del estimador  pero también puede hacerse por medio de una tabla ANOVA, estudiando el incremento que se produce en la suma de cuadrados explicada por el modelo al introducir la variable regresora en estudio xi.

    Para ello, si se desea contrastar la influencia de la variable xi, se ajusta el modelo de regresión completo, con las k variables regresoras y se calcula la suma de cuadrados explicada por el modelo (scE(k)). A continuación, se ajusta el modelo de regresión con k - 1 variables, todas excepto la variable xi. Se calcula la suma de cuadrados explicada por este modelo (scE). Ahora se define la suma de cuadrados incremental debida a xi como el valor

 

 

Relación entre los contrastes individuales y los contrastes conjuntos.

En un modelo de regresión múltiple al hacer los contrastes sobre la influencia individual de cada una de las variables regresoras y el contraste sobre la influencia conjunta del modelo de regresión ajustado, pueden darse las siguientes situaciones:

 

 

 

Página principal

Hosted by www.Geocities.ws

1