2. Modelos de Regresión Bivariable Lineal
ANÁLISIS DE REGRESIÓN
Consideremos la variable bidimensional (X,Y) , y sea E(Y/X) la regresión del promedio de Y sobre X , cuya forma dependerá de la relación existente entre las variables. En este capítulo nos limitaremos a las funciones de regresión que son lineales en los parámetros (o coeficientes).
Si la distribución de (X,Y) es Normal bivariada, entonces las funciones condicionales de probabilidad son también normales; es decir: dado un valor fijo X=x , la variable Y se distribuye en forma normal con media E(Y/X) = α + β.X y con variancia V(Y/X) = σ2/y(1 - p2 )−= σ
2 constante, lo que significa, que no depende del valor X=x.La diferencia que existe entre el valor que toma la variable Y (dado que X=x) y la esperanza condicional E(Y/x) se denomina residuo , desvío o error , y representa la parte aleatoria . En otras palabras, si (xi , yi ) es el valor que asume la variable bidimensional (X,Y), el residuo será = yεi - E(Y/xi ) , y por lo tanto
yi = E(Y/xi ) + εi .
MODELO DE REGRESIÓN BIVARIABLE LINEAL
Considerando una relación lineal entre las variables , esto significa que
yi= α + β.xi+εi
donde α + β.xi = E(Y/xi ) es la parte sistemática o determinística (sólo depende del valor x ), y es la parte aleatoria sobre la cual se establecerán condiciones o restricciones que determinan el comportamiento de la variable Y. Este modelo supone que para cada valor fijo x , existe una distribución de valores de la variable Y . ε
En este modelo identificamos las siguientes componentes:
α y β: parámetros poblacionales
X : variable "explicativa"
Y : variable "explicada"
ε : error residual
Este residuo ε se compone esencialmente de errores casuales, debida a la propia aleatoriedad de cada individuo, pudiendo además incluir errores de medición de los yi , como también deficiencias del modelo debidas, por ejemplo, a otras variables que no han sido consideradas en dicho modelo . En otras palabras, εi es la parte de yi
que no está explicada por la regresión lineal de Y sobre xi .Este modelo supone una distribución Normal de los errores o residuos , con media E(ε) = 0 y variancia constante V(ε ) = σ2 , característica que recibe el nombre de
homocedasticidad y significa que la variancia de Y no depende del valor que tome la variable X . Es decir :εi ~N (0,σ2)
A esta condición de normalidad se le agrega la de la independencia entre los errores , es decir :
cov (ei,ej)
= 0∀i≠jEstos supuestos sobre los errores implican supuestos sobre el comportamiento de las variable Y. Podemos, entonces , enunciarlos como sigue :
La variable "explicativa" X toma valores predeterminados por el investigador.
Para cada valor fijo de X , la variable Y se distribuye en forma normal .
La relación entre las variables X e Y es lineal , es decir, la regresión del promedio es lineal Simbólicamente : E(Y/X) = α + β.X , ya que E(ε) = 0
Los valores de la variable Y son independientes entre si ya que cov (εi,εj) =∀i ≠j
Homocedasticidad , ya que la variancia de los errores es constante , no depende del valor de X
La violación de supuestos se refiere a :
Autocorrelación entre los errores o dependencia entre los errores : cov (εi,εj) ≠ 0 para a 1g ún par i;j.
Heterocedasticidad , lo que significa que la variancia del error o residuo depende del valor de x , y trae como consecuencia que la variancia de Y condicionada a un valor de X tampoco es constante sino que depende de dicho valor. O sea : V(Y/x) = H(x) = V(ε/x) .
Distribución no normal de los errores o residuos.
X es variable aleatoria , lo que significa que no han sido predeterminados los valores de X
La hipótesis de distribución normal de los errores y la de homocedasticidad traen como consecuencia inmediata la distribución normal de la variable Y condicionada a un valor fijo X = x . Es decir :
εi ~
N(0,σ2) ⇒ Y/ x ~ N (α +βx,σ2)La inferencia estadística se ocupa de estimar los parámetros de la población bivariada (como así también los de la recta de regresión) en base a los resultados obtenidos a través de una muestra aleatoria.