MODELO DE REGRESIÓN LINEAL SIMPLE

MODELO DE REGRESIÓN LINEAL SIMPLE

El modelo de regresión se utiliza para fines de predicción.

Variables

Información disponible: (x_1;y₁) , (x_2;y₂) , ... , (x_n;y_n)

Ejemplo. El gerente de personal de una empresa intuye que quizá haya relación entre el ausentismo y la edad y querría tomar la edad de un trabajador para desarrollar un modelo de predicción de días de ausencia durante un año laboral. Se seleccionó una muestra aleatoria de 10 trabajadores con los resultados que se presentan a continuación:

Edad X en años	27	61	37	23	46	58	29	36	64	40
Días de ausentismo Y	15	6	10	18	9	7	14	11	5	8

Diagrama de dispersión

MODELO: Y_i = β₀ + β₁X_i + ε_i

Componentes

La recta de ecuación Y = β₀ + β₁X se denomina recta de regresión poblacional. Forma parte del modelo que pretende describir a la totalidad de los pares de valores de las variables (X;Y). Se interpreta que esta relación funcional provee la media de la variable Y para cada valor de X o esperanza de Y dado X que se designa también E(Y/X). El modelo supone que la esperanza de Y dado X es una función lineal de la variable X, o sea

E(Y/X) = β₀ + β₁X

El término aleatorio ε se denomina perturbación.

Primer supuesto fundamental. La perturbación ε_ies una variable aleatoria pura, es decir, totalmente impredecible e independiente de la variable explicativa X, siendo además sus valores sucesivos independientes entre sí. Todas las ε_itiene media cero e igual varianza σ².

E(ε_i) = 0 V(ε_i) = σ² E(ε_iX_i) = 0 E(ε_iε_j) = 0

Estimación de los parámetros de la regresión

El criterio de los mínimos cuadrados lleva a minimizar la función

Ψ(b₀, b₁) = ∑ [(y_i – (b₀+ b₁x_i)]² → min

El mínimo se alcanza para

b₁= b₀ =

Las cantidades básicas se calculan con las fórmulas:

S_xx =

S_xy =

S_yy =

Con los datos del ejemplo estas cantidades resultan:

= 42.1 = 10.3 S_xx=1936.9 S_xy= -519.3 S_yy = 160.1

A b₀y a b₁ se los llama estimadores de mínimos cuadrados de β₀y β₁respectivamente.

Estos estimadores intervienen en la formulación de la función predictora:

Ŷ= b₀ + b₁X

La función predictora del ejemplo es:

Ŷ = 21.59 – 0.27 X

La diferencia Y – Ŷ se denomina residuo.

Estimación de la varianza residual σ²

Al mínimo de la función Ψ se lo denomina suma de cuadrados residual y se lo designa con SC_RES.

SC_RES =

La SC_RESrefleja la dispersión de los valores observados de la variable Y respecto de la recta de regresión.

El estadístico es un estimador insesgado de la varianza σ²

Una medida de dispersión que puede interesar para el análisis es el desvío estándar residual. Se define como:

S_RES=

Esta medida se interpreta como una suerte de promedio de las diferencias

Y - en valor absoluto.

Segundo supuesto fundamental. La perturbación ε_ies una variable aleatoria con distribución normal.

Como consecuencia de los supuestos fundamentales se tiene:

El estadístico

tiene la distribución chi cuadrado con n-2 grados de libertad.

b₁ tiene la distribución normal con E(b₁) = β₁y V(b₁) =

V(b₁) se estima con

El estadístico

tiene la distribución t de Student con n-2 grados de libertad.

Estos resultados permiten hacer inferencias sobre σ² y β₁

Estimación de E(Y/X₀) la media de Y condicional a X₀

El estimador puntual de E(Y/X₀) = β₀ + β₁X₀ es = b₀ + b₁X₀

tiene la distribución normal

) = β₀ + β₁X₀

V() = σ² (

)

Los extremos del intervalo de confianza para E(Y/X₀) de nivel 1-α se obtienen con:

± t_{n-2; 1-}α/2 S

Ejemplo (continuación): Un ejecutivo de dirección está interesado en hacer ingresar a la empresa a un joven de 30 años. Al enterarse, el gerente de personal se dispone a usar el modelo de regresión para formarse una opinión sobre la conveniencia del ingreso del joven basada en la predicción de su ausentismo.

Predicción de la respuesta Y₀ para el valor particular X₀.

El predictor puntual de Y₀ = β₀ + β₁X₀+ ε₀ es = b₀ + b₁X₀

Los extremos del intervalo de predicción para Y₀ de nivel 1-α se obtienen con:

± t_{n-2; 1-}α/2 S

Con los datos del ejemplo se obtiene = 13.54 y el intervalo (9.51 ; 17.58) para 1-α = 0.95. El gerente de personal opina entonces que no es conveniente que el joven ingrese. Un ausentismo posible de hasta 17 dνas al año le parece que demoraría en demasía la realización de las tareas que se le encomendarán.

El coeficiente de determinación

La suma de cuadrados total, denotada por SC_TOT , refleja la dispersión de los

valores observados de la variable Y respecto de su media . Se define con:

SC_TOT =

La suma de cuadrados explicada por la regresión, simbolizada con SC_EXP, se obtiene reemplazando en la SC_TOTlos valores observados de Y por los valores de producidos por la ecuación de regresión. Luego esta suma de cuadrados da cuenta de la dispersión de los valores de respecto de la media .

SC_EXP=

Con alguna habilidad algebraica es posible llegar a la siguiente igualdad:

SC_TOT=SC_EXP+ SC_RES

Así se tiene que la dispersión total de los valores de Y alrededor de su media es la suma de dos componentes. La fracción de la dispersión total explicada por el modelo está dada por el cociente

El coeficiente r² se denomina coeficiente de determinación y su valor siempre estará comprendido entre 0 y 1. Cuanto más cercano a 1 esté r² mejor será el ajuste del modelo a los datos.

Expresión de las sumas de cuadrados y del coeficiente de determinación en función de las cantidades básicas:

SC_TOT= S_yy

SC_EXP=

SC_RES = S_yy -

r² =

El coeficiente de determinación del ejemplo es:

r² = 0.87

Estimación del coeficiente de correlación lineal ρ

El estadístico r, denominado coeficiente de correlación lineal muestral, es un estimador de ρ.

En el ejemplo es r = -0,93

MODELO DE REGRESIÓN LINEAL MÚLTIPLE

La multiplicidad se refiere a que el modelo contiene varias variables explicativas.

Variables

La información disponible sobre una muestra de tamaño n se arregla en una tabla de datos como la siguiente:

X₁	X₂	...	X_k	Y
X₁₁	X₂₁	...	X_k1	Y₁
X₁₂	X₂₂	…	X_k2	Y₂
...	...	...	...	...
X_1n	X_2n	...	X_kn	Y_n

Cada renglón de esta tabla es un vector de k+1 componentes que son los valores que las variables toman sobre la correspondiente unidad.

Ejemplo (continuación): Cuando el gerente de personal le transmite al ejecutivo de dirección su opinión sobre el ingreso del joven de 30 años basada en la regresión lineal simple, el ejecutivo le responde que no la comparte. Argumenta que hay otros factores que influyen sobre el ausentismo y le sugiere que contemple también los sueldos pagados. Considera que el joven es merecedor de un sueldo de veintisiete mil pesos anuales y le pide al gerente que tenga en cuenta esto en un análisis de regresión lineal múltiple. El gerente entonces prepara la tabla de las variables que se definen a continuación:

X₁: Edad en años

X₂: Sueldo anual en miles de pesos

Y : Días de ausentismo

X₁	X₂	Y
27	18.5	15
61	26.4	6
37	24.3	10
23	18.0	18
46	24.7	9
58	24.0	7
29	21.2	14
36	25.3	11
64	26.9	5
40	27.2	8

MODELO: Y_i = β₀ + β₁X_1i + β₂X_2i + ... + β_kX_ki + ε_i

Componentes

El hiperplano de ecuación Y = β₀ + β₁X₁ + β₂X₂ +...+ β_kX_k es poblacional en el sentido que describe a la totalidad de las (k+1)-uplas de valores del vector

(X₁; X₂;...; X_k;Y). Se interpreta que esta relación funcional provee la media de la variable Y para cada valor de (X₁; X₂;...; X_k) o esperanza de Y dado

(X₁; X₂;...; X_k) que se designa también E(Y/(X₁; X₂;...; X_k)). El modelo supone que la esperanza de Y dado (X₁; X₂;...; X_k) es una función lineal del vector

(X₁; X₂;...; X_k), o sea

E(Y/(X₁; X₂;...; X_k)) = β₀ + β₁X₁+ β₂X₂+...+ β_kX_k

El término aleatorio ε es la perturbación que en el modelo satisface las condiciones de los supuestos fundamentales..

El modelo expresado con notación matricial

es un vector columna de orden n X 1

es una matriz de orden n X (k+1)

es un vector columna de orden k+1

es un vector columna de orden n

MODELO: Y = X β + ε

Estimación de los parámetros de la regresión

El criterio de los mínimos cuadrados lleva a minimizar la función

Ψ(b₀, b₁, b₂,…, b_k) = ∑ [(Y_i – (b₀+ b₁X_1i+ b₂X_2i+ … + b_kX_ki)]² → mín

En notación matricial se expresa

Ψ(b) = (Y – X b)’(Y- X b) → mνn

El mínimo se alcanza en b, la solución del sistema denominado de ecuaciones normales.

X’X b = X’Y

El vector es un vector columna de orden k+1

En el caso de que X’X sea no singular es

b = (X’X)^-1X’Y

La componente b_j del vector b es un estimador insesgado de β_j.

Estos estimadores intervienen en la formulación de la función predictora:

Ŷ= b₀ + b₁X₁+ b₂X₂+...+ b_kX_k

La función predictora del ejemplo es

Ŷ= 31.89 - 0.16 X₁- 0.63 X₂

La diferencia Y – Ŷ se denomina residuo.

Estimación de la varianza residual σ²

Al mínimo de la función Ψ se lo denomina suma de cuadrados residual y se lo designa con SC_RES.

SC_RES =

El estadístico es un estimador insesgado de la varianza σ². Su raνz cuadrada es el desvío estándar residual. Se define como:

S_RES=

Esta medida se interpreta como una suerte de promedio de las diferencias

Y – Ŷen valor absoluto.

El estadístico tiene la distribución chi cuadrado con n-k-1 grados de libertad. Esto permite hacer inferencias sobre σ².

La matriz de covarianza de los estimadores.

Si se designa con c_ijal elemento ubicado en la fila i y columna j de la matriz (X’X)^-1 se tiene

V(b_j) = σ² c_jj cov(b_i, b_j) = σ² c_jj

Los estimadores de las varianzas y covarianzas se obtienen reemplazando σ² por S² en las expresiones anteriores.

La distribución de los estimadores

El estadístico tiene la distribución t de Student con n-k-1 grados de libertad. Este resultado permite hacer inferencias sobre β_j

Ejemplo (continuación): Para satisfacer al ejecutivo de dirección el gerente de personal se dispone a usar el modelo de regresión múltiple para predecir el ausentismo de un empleado de 30 años de edad con un sueldo de $ 27000 al año.

Predicción de la respuesta Y₀ para el valor particular X₀.

X₀= (1 ,X₁₀, X₂₀,...,X_k0) es un vector fila de orden k+1

El predictor puntual de Y₀ = β₀ + β₁X₁₀+ β₂X₂₀ + ... + β_kX_k0+ε₀ es

Ŷ₀= b₀ + b₁X₁₀ + b₂X₂₀ +…+ b_kX_k0

En forma matricial se escribe que el predictor puntual de Y₀ = X₀ β + ε₀ es

Ŷ₀ = X₀ b

Se puede demostrar que la distribución muestral de Ŷ₀- Y₀es normal con media cero y varianza

σ² [1+ X₀’(X’X)^-1 X₀]

de donde los extremos del intervalo de predicción para Y₀ de nivel 1-α se obtienen con:

Ŷ₀ ± t_{n-k-1; 1-}α/2 S

Con los datos del ejemplo se obtiene Ŷ₀ = 10.16 y el intervalo (7.76 ; 12.56) de nivel de confianza 0.95. El valor predicho está cercano al ausentismo medio y el intervalo de predicción es prácticamente coincidente con el intervalo determinado por los percentiles del 30% y del 70%. El ausentismo predicho está entre los valores que son habituales en la empresa por lo que no constituye motivo de alarma.

El coeficiente de determinación

La suma de cuadrados de los residuos y de la regresión adoptan la misma forma y juegan el mismo papel que en el caso de la regresión lineal simple. De hecho, la relación aditiva entre las sumas de cuadrados continúa siendo válida.

SC_TOT=SC_EXP+ SC_RES

Así se tiene que la dispersión total de los valores de Y alrededor de su media es la suma de dos componentes. La fracción de la dispersión total explicada por el modelo está dada por el coeficiente de determinación múltiple

Valores de r² cercanos a 1 indican un buen ajuste del modelo a los datos.

El coeficiente de determinación múltiple del ejemplo es:

r² = 0.98

Los cálculos en regresión múltiple, hechos manualmente, pueden demandar bastante trabajo. Por lo que se recomienda el uso de algún programa de computación.

La planilla EXCEL dispone de una función de biblioteca denominada Regresión. Se accede a la función Regresión a través del menú Herramientas, luego la opción Análisis de datos y finalmente la opción Regresión. Si no se tiene disponible la opción Análisis de datos, para activarla sólo hay cliquear en la opción Complementos y allí seleccionar las opciones Herramientas de análisis. Luego de Aceptar en el menú Herramientas aparecerá la opción Análisis de datos.

Otras funciones de EXCEL que se encuentran entre las funciones estadísticas y pueden resultar útiles para el cálculo son: Estimación lineal, Tendencia, Estimación logarítmica, y crecimiento.

Hosted by www.Geocities.ws