MODELO DE REGRESIÓN LINEAL SIMPLE

 

El modelo de regresión se utiliza para fines de predicción.

 

Variables

 

Información disponible: (x1; y1) , (x2; y2) , ... , (xn; yn)

Ejemplo. El gerente de personal de una empresa intuye que quizá haya relación entre el ausentismo y la edad y querría tomar la edad de un trabajador para desarrollar un modelo de predicción de días de ausencia durante un año laboral. Se seleccionó una muestra aleatoria de 10 trabajadores con los resultados que se presentan a continuación:

Edad X en años

27

61

37

23

46

58

29

36

64

40

Días de ausentismo Y

15

6

10

18

9

7

14

11

5

8

Diagrama de dispersión

 

MODELO: Yi = β0 + β1Xi + εi

 

Componentes

La recta de ecuación Y = β0 + β1X se denomina recta de regresión poblacional. Forma parte del modelo que pretende describir a la totalidad de los pares de valores de las variables (X;Y). Se interpreta que esta relación funcional provee la media de la variable Y para cada valor de X o esperanza de Y dado X que se designa también E(Y/X). El modelo supone que la esperanza de Y dado X es una función lineal de la variable X, o sea

E(Y/X) = β0 + β1X

El término aleatorio ε se denomina perturbación.

Primer supuesto fundamental. La perturbación εi es una variable aleatoria pura, es decir, totalmente impredecible e independiente de la variable explicativa X, siendo además sus valores sucesivos independientes entre sí. Todas las εi tiene media cero e igual varianza σ˛.

E(εi) = 0 V(εi) = σ˛ E(εi Xi) = 0 E(εi εj) = 0

 

Estimación de los parámetros de la regresión

El criterio de los mínimos cuadrados lleva a minimizar la función

Ψ(b0, b1) = ∑ [(yi – (b0 + b1xi)]˛ → min

El mínimo se alcanza para

b1 = b0 =

Las cantidades básicas se calculan con las fórmulas:

Sxx =

Sxy =

Syy =

Con los datos del ejemplo estas cantidades resultan:

= 42.1 = 10.3 Sxx = 1936.9 Sxy = -519.3 Syy = 160.1

A b0 y a b1 se los llama estimadores de mínimos cuadrados de β0 y β1 respectivamente.

Estos estimadores intervienen en la formulación de la función predictora:

Ŷ = b0 + b1X

La función predictora del ejemplo es:

Ŷ = 21.59 – 0.27 X

La diferencia Y – Ŷ se denomina residuo.

 

Estimación de la varianza residual σ˛

Al mínimo de la función Ψ se lo denomina suma de cuadrados residual y se lo designa con SCRES.

SCRES =

La SCRES refleja la dispersión de los valores observados de la variable Y respecto de la recta de regresión.

El estadístico es un estimador insesgado de la varianza σ˛

Una medida de dispersión que puede interesar para el análisis es el desvío estándar residual. Se define como:

SRES =

Esta medida se interpreta como una suerte de promedio de las diferencias

Y - en valor absoluto.

Segundo supuesto fundamental. La perturbación εi es una variable aleatoria con distribución normal.

Como consecuencia de los supuestos fundamentales se tiene:

tiene la distribución t de Student con n-2 grados de libertad.

Estos resultados permiten hacer inferencias sobre σ˛ y β1

 

Estimación de E(Y/X0) la media de Y condicional a X0

El estimador puntual de E(Y/X0) = β0 + β1X0 es = b0 + b1X0

tiene la distribución normal ) = β0 + β1X0 )

Los extremos del intervalo de confianza para E(Y/X0) de nivel 1-α se obtienen con:

± tn-2; 1-α/2 S

Ejemplo (continuación): Un ejecutivo de dirección está interesado en hacer ingresar a la empresa a un joven de 30 años. Al enterarse, el gerente de personal se dispone a usar el modelo de regresión para formarse una opinión sobre la conveniencia del ingreso del joven basada en la predicción de su ausentismo.

Predicción de la respuesta Y0 para el valor particular X0.

El predictor puntual de Y0 = β0 + β1X0 + ε0 es = b0 + b1X0

Los extremos del intervalo de predicción para Y0 de nivel 1-α se obtienen con:

± tn-2; 1-α/2 S

Con los datos del ejemplo se obtiene = 13.54 y el intervalo (9.51 ; 17.58) para 1-α = 0.95. El gerente de personal opina entonces que no es conveniente que el joven ingrese. Un ausentismo posible de hasta 17 dνas al año le parece que demoraría en demasía la realización de las tareas que se le encomendarán.

 

El coeficiente de determinación

La suma de cuadrados total, denotada por SCTOT , refleja la dispersión de los

valores observados de la variable Y respecto de su media . Se define con:

.

SCTOT =

La suma de cuadrados explicada por la regresión, simbolizada con SCEXP , se obtiene reemplazando en la SCTOT los valores observados de Y por los valores de producidos por la ecuación de regresión. Luego esta suma de cuadrados da cuenta de la dispersión de los valores de respecto de la media .

SCEXP =

Con alguna habilidad algebraica es posible llegar a la siguiente igualdad:

SCTOT = SCEXP + SCRES

Así se tiene que la dispersión total de los valores de Y alrededor de su media es la suma de dos componentes. La fracción de la dispersión total explicada por el modelo está dada por el cociente

El coeficiente se denomina coeficiente de determinación y su valor siempre estará comprendido entre 0 y 1. Cuanto más cercano a 1 esté mejor será el ajuste del modelo a los datos.

Expresión de las sumas de cuadrados y del coeficiente de determinación en función de las cantidades básicas:

SCTOT = Syy

SCEXP =

SCRES = Syy -

r˛ =

El coeficiente de determinación del ejemplo es:

r2 = 0.87

Estimación del coeficiente de correlación lineal ρ

El estadístico r, denominado coeficiente de correlación lineal muestral, es un estimador de ρ.

En el ejemplo es r = -0,93

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

MODELO DE REGRESIÓN LINEAL MÚLTIPLE

 

La multiplicidad se refiere a que el modelo contiene varias variables explicativas.

Variables

La información disponible sobre una muestra de tamaño n se arregla en una tabla de datos como la siguiente:

X1

X2

...

Xk

Y

X11

X21

...

Xk1

Y1

X12

X22

Xk2

Y2

...

...

...

...

...

X1n

X2n

...

Xkn

Yn

Cada renglón de esta tabla es un vector de k+1 componentes que son los valores que las variables toman sobre la correspondiente unidad.

Ejemplo (continuación): Cuando el gerente de personal le transmite al ejecutivo de dirección su opinión sobre el ingreso del joven de 30 años basada en la regresión lineal simple, el ejecutivo le responde que no la comparte. Argumenta que hay otros factores que influyen sobre el ausentismo y le sugiere que contemple también los sueldos pagados. Considera que el joven es merecedor de un sueldo de veintisiete mil pesos anuales y le pide al gerente que tenga en cuenta esto en un análisis de regresión lineal múltiple. El gerente entonces prepara la tabla de las variables que se definen a continuación:

X1: Edad en años

X2: Sueldo anual en miles de pesos

Y : Días de ausentismo

X1

X2

Y

27

18.5

15

61

26.4

6

37

24.3

10

23

18.0

18

46

24.7

9

58

24.0

7

29

21.2

14

36

25.3

11

64

26.9

5

40

27.2

8

 

 

MODELO: Yi = β0 + β1X1i + β2X2i + ... + βkXki + εi

 

Componentes

El hiperplano de ecuación Y = β0 + β1X1 + β2X2 +...+ βkXk es poblacional en el sentido que describe a la totalidad de las (k+1)-uplas de valores del vector

(X1; X2;...; Xk;Y). Se interpreta que esta relación funcional provee la media de la variable Y para cada valor de (X1; X2;...; Xk) o esperanza de Y dado

(X1; X2;...; Xk) que se designa también E(Y/(X1; X2;...; Xk)). El modelo supone que la esperanza de Y dado (X1; X2;...; Xk) es una función lineal del vector

(X1; X2;...; Xk), o sea

E(Y/(X1; X2;...; Xk)) = β0 + β1X1+ β2X2 +...+ βkXk

El término aleatorio ε es la perturbación que en el modelo satisface las condiciones de los supuestos fundamentales..

 

El modelo expresado con notación matricial

es un vector columna de orden n X 1

es una matriz de orden n X (k+1)

 

 

es un vector columna de orden k+1

es un vector columna de orden n

MODELO: Y = X β + ε

 

 

Estimación de los parámetros de la regresión

El criterio de los mínimos cuadrados lleva a minimizar la función

Ψ(b0, b1, b2,…, bk) = ∑ [(Yi – (b0 + b1X1i + b2X2i + … + bkXki )]˛ → mín

En notación matricial se expresa

Ψ(b) = (Y – X b)’(Y- X b) → mνn

El mínimo se alcanza en b, la solución del sistema denominado de ecuaciones normales.

X’X b = X’Y

El vector es un vector columna de orden k+1

En el caso de que X’X sea no singular es

b = (X’X)-1 X’Y

La componente bj del vector b es un estimador insesgado de βj.

Estos estimadores intervienen en la formulación de la función predictora:

Ŷ = b0 + b1X1+ b2X2 +...+ bkXk

 

La función predictora del ejemplo es

Ŷ = 31.89 - 0.16 X1- 0.63 X2

La diferencia Y – Ŷ se denomina residuo.

Estimación de la varianza residual σ˛

Al mínimo de la función Ψ se lo denomina suma de cuadrados residual y se lo designa con SCRES.

SCRES =

El estadístico es un estimador insesgado de la varianza σ˛. Su raνz cuadrada es el desvío estándar residual. Se define como:

SRES =

Esta medida se interpreta como una suerte de promedio de las diferencias

Y – Ŷ en valor absoluto.

El estadístico tiene la distribución chi cuadrado con n-k-1 grados de libertad. Esto permite hacer inferencias sobre σ˛.

 

La matriz de covarianza de los estimadores.

Si se designa con cij al elemento ubicado en la fila i y columna j de la matriz (X’X)-1 se tiene

V(bj) = σ˛ cjj cov(bi , bj) = σ˛ cjj

Los estimadores de las varianzas y covarianzas se obtienen reemplazando σ˛ por S˛ en las expresiones anteriores.

 

La distribución de los estimadores

El estadístico tiene la distribución t de Student con n-k-1 grados de libertad. Este resultado permite hacer inferencias sobre βj

 

Ejemplo (continuación): Para satisfacer al ejecutivo de dirección el gerente de personal se dispone a usar el modelo de regresión múltiple para predecir el ausentismo de un empleado de 30 años de edad con un sueldo de $ 27000 al año.

Predicción de la respuesta Y0 para el valor particular X0.

X0 = (1 ,X10, X20, ..., Xk0) es un vector fila de orden k+1

El predictor puntual de Y0 = β0 + β1X10 + β2X20 + ... + βkXk0 0 es

Ŷ0 = b0 + b1X10 + b2X20 +…+ bkXk0

En forma matricial se escribe que el predictor puntual de Y0 = X0 β + ε0 es

Ŷ0 = X0 b

Se puede demostrar que la distribución muestral de Ŷ0 - Y0 es normal con media cero y varianza

σ˛ [1+ X0’(X’X)-1 X0]

de donde los extremos del intervalo de predicción para Y0 de nivel 1-α se obtienen con:

Ŷ0 ± tn-k-1; 1-α/2 S

Con los datos del ejemplo se obtiene Ŷ0 = 10.16 y el intervalo (7.76 ; 12.56) de nivel de confianza 0.95. El valor predicho está cercano al ausentismo medio y el intervalo de predicción es prácticamente coincidente con el intervalo determinado por los percentiles del 30% y del 70%. El ausentismo predicho está entre los valores que son habituales en la empresa por lo que no constituye motivo de alarma.

 

El coeficiente de determinación

La suma de cuadrados de los residuos y de la regresión adoptan la misma forma y juegan el mismo papel que en el caso de la regresión lineal simple. De hecho, la relación aditiva entre las sumas de cuadrados continúa siendo válida.

SCTOT = SCEXP + SCRES

Así se tiene que la dispersión total de los valores de Y alrededor de su media es la suma de dos componentes. La fracción de la dispersión total explicada por el modelo está dada por el coeficiente de determinación múltiple

Valores de r˛ cercanos a 1 indican un buen ajuste del modelo a los datos.

 

El coeficiente de determinación múltiple del ejemplo es:

r2 = 0.98

Los cálculos en regresión múltiple, hechos manualmente, pueden demandar bastante trabajo. Por lo que se recomienda el uso de algún programa de computación.

La planilla EXCEL dispone de una función de biblioteca denominada Regresión. Se accede a la función Regresión a través del menú Herramientas, luego la opción Análisis de datos y finalmente la opción Regresión. Si no se tiene disponible la opción Análisis de datos, para activarla sólo hay cliquear en la opción Complementos y allí seleccionar las opciones Herramientas de análisis. Luego de Aceptar en el menú Herramientas aparecerá la opción Análisis de datos.

Otras funciones de EXCEL que se encuentran entre las funciones estadísticas y pueden resultar útiles para el cálculo son: Estimación lineal, Tendencia, Estimación logarítmica, y crecimiento.

Hosted by www.Geocities.ws

1