REPÚBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD YACAMBU.

PREGADO: LICENCIATURA EN CONTADURÍA PÚBLICA

ASIGNATURA: ESTADISTICA INFERENCIAL

Participante: LUCI RAMÍREZ

 

 

 

 

 

 

Análisis de Regresión Lineal y Correlación

 

 

 

 

 

 

 

 

 

Caracas, 02-12-2.007

 

*                  Modelo de Regresión:

Se denominan modelos de regresión a los modelos estadísticos que explican la dependencia de una variable dependiente “Y” respecto de una o varias variables cuantitativas “X”.

Los Modelos de Regresión estudian la relación estocástica cuantitativa entre una variable de interés y un conjunto de variables explicativas. Sea Y  la variable de interés, variable respuesta o dependiente y sean x1,x2,...,xk las variables explicativas o regresoras. La formulación matemática de estos modelos es la siguiente

Y = m (x1,x2,...,xk)+ e

Donde  ε  es el error de observación debido a variables no controladas.

Las relaciones estocásticas son las que ocurren en la mayoría de las situaciones y su estudio se corresponde con los denominados Modelos de Regresión.

El objetivo básico en el estudio de un modelo de regresión es el de estimar la función de regresión, m,  y el modelo probabilístico que sigue el error aleatorio ε, ésto es, estimar la función de distribución Fe de la variable de error. La estimación de ambas funciones se hace a partir del conocimiento de una muestra de las variables en estudio,

{((X1,i,X2,i,...,Xk,i),Yi) : i = 1,2,...,n}.

 

Una vez estimadas estas funciones se tiene conocimiento de:

*                  La relación funcional de la variable respuesta con las variables regresoras, dada la función de regresión que se define como sigue:

m (x1,...,xk) = E (Y/X1 = x1,...,Xk =
xk).

            Esto permite tener una idea general del comportamiento de la variable respuesta en función de las regresoras.

*                  Se puede estimar y predecir el valor de la variable respuesta de un individuo del que se conocen los valores de las variables regresoras. Esto es, de un individuo t se sabe que X1 = x1,t,...,Xk = xk,t, entonces se puede predecir el valor de Y t y calcular un intervalo de predicción del mismo

Los modelos de regresión se pueden clasificar de dos formas:

*                  Según la metodología utilizada para su estudio:

1)                  Modelos de regresión paramétricos: Se supone que la función de regresión, m, que relaciona a la variable respuesta con las variables regresoras pertenece una determinada familia paramétrica. m (x) = m (a,x),

donde x= (x1,...,xk)y a= (a1,...,ap) (- Qp <Rp

Por ejemplo, se supone que la familia paramétrica es lineal

m (x) = m (a,x) = a0 + a1x1 + ...+
akxk.

En este caso, el problema básico es estimar los parámetros de la familia supuesta a partir de las observaciones muéstrales. En el ejemplo anterior hay que estimar los parámetros a0,a1,2a,...,ak.

También se debe contrastar la hipótesis de que la función de regresión pertenece a la familia paramétrica supuesta. Este enfoque es el que se ha estudiado clásicamente y que con mayor frecuencia se utiliza en la práctica.

2) Modelos de regresión no paramétricos. Es un enfoque alternativo que está teniendo una gran aceptación, con este método no se hace ninguna suposición acerca de la forma funcional  de la regresión y se estima la función de regresión punto a punto. Esto es, se estima el valor de m (x1,i,x2,i,...,xi,k) en un enrejado (grid) de valores {(x1,i,x2,i,...,xk,i)}i = 1N de las variables regresoras.

No deben de considerarse los métodos de regresión paramétricos y los no paramétricos como competidores sino como métodos complementarios. Siendo recomendable, en la práctica, utilizar ambos enfoques, pues los dos métodos proporcionan información complementaria acerca del problema en estudio

*                 Según la forma de recogida muestral:

 

1. Modelos de regresión de diseño fijo, en estos modelos las variables regresoras son valores predeterminados. Este modelo se utiliza en el estudio del comportamiento de una variable respuesta cuando las variables regresoras varían en una determinada dirección. En este caso se debe diseñar y realizar un experimento en el que las variables regresoras se muevan en dicha dirección. Por tanto, en este diseño se controla en todo momento el valor de las variables regresoras.

 

2. Modelos de regresión con diseño aleatorio, en estos modelos las variables regresoras son variables aleatorias. Se utiliza este modelo cuando se estudia la relación entre la variable respuesta y las variables regresoras a partir de una muestra obtenida de la observación de las variables en unidades de experimentación elegidas al azar. Esto es, el experimentador es un observador pasivo en la recogida muestral y los resultados sólo serán válidos para el rango de variación conjunta de las variables implicadas en el estudio- 

Los objetivos de un modelo de regresión puede ser dos:

 

*                  Estimación de Parámetros:

Proceso por el que se trata de averiguar un parámetro de la población representado, en general, por q a partir del valor de un estadístico llamado estimador y representado por

Estimación de los parámetros del modelo.

En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión, a0 y a1; y la varianza de la distribución normal, s2.

Métodos de estimación

Los principales métodos de estimación de parámetros son los siguientes

· Método de los momentos: El método consiste en igualar los primeros momentos de una población a los momentos correspondientes de una muestra.

Definición. Se define el k-ésimo momento (absoluto) de una variable aleatoria discreta como:

Si la variable aleatoria es continua su k-ésimo momento (absoluto) está dado por:

El k-ésimo momento mk de una muestra aleatoria X1, X2,..., Xn es la media de sus k-ésimas potencias y está dado por:


 

Entonces si una distribución tiene p parámetros desconocidos, para su estimación se tendrá lo siguiente:
m1 = m
1
m2 = m
2
……………
mp = mp

Ejemplo. Si una variable aleatoria sigue una distribución exponencial con parámetro l, encontrar el estimador del parámetro usando el método de los momentos.

f(X) = le-lx, x > 0

Como sólo existe un parámetro, bastará con usar el primer momento, es decir,


m
1 = m1

El primer momento de la distribución exponencial es 1/l, por lo cual se tiene que





Es decir, el estadístico usado para estimar el parámetro l es el inverso de la media muestral. Si el parámetro que estuviéramos estimando fuera el valor esperado q = 1/l, entonces el estimador será la media muestral. Este estimador es insesgado


· Método de máxima verosimilitud:
El método de estimación de máxima verosimilitud permite, en el caso de un parámetro o n vector de parámetros poblacionales desconocidos, determinar el estimador o vector de estimadores que maximizan la función de probabilidad conjunta de una muestra de n v.a. seleccionadas de la población en estudio.

Sea  la fdp de una población en la cual queremos determinar.

Sea x1,x2,….,xn una muestra de v.a. iid seleccionadas de dicha población, a la función de probabilidad conjunta L() de las n v.a. de la muestra la llamaremos función de verosimilitud muestral, es decir:

L ()=L(x1,x2,….,xn; )

Pero como las v.a. son independientes tenemos: L () = f(x1,) f(x2,)….f (xn,). Es decir:

L ()=


· Mínimos cuadrados: Consiste en encontrar estimadores de los parámetros de forma tal que minimicen la suma de los cuadrados de los desvíos. Con este método se obtienen estimadores no viciados y consistentes, pues el mismo garantiza mínima variancia y suma de desvíos igual a cero.

El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersión se conoce como “el método de los mínimos cuadrados”. La recta resultante presente a dos caracterizas importantes:

1.      Es nula la suma de las desviaciones verticales de los puntos a partir de la recta de ajuste   ∑ (Y - - Y) = 0

2.      Es mínima la suma de los cuadrados de dichas desviaciones. Ninguna otra recta daría una suma  menor de las desviaciones elevadas al cuadrado ∑ (Y - - Y)² = 0 (mínima)

El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci²

∑ Ci² = ∑ (Yº - Y^)²  Reemplazado Y^ nos queda  ∑ Ci² = ∑ [Yº - (a + bx) ]²

La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar: G = ∑(y – a- bx)²

Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b.  

 G = ∑ (y – a- bx)²

Para la estimación de parámetros de distribuciones de probabilidad los métodos empleados son los dos primeros, mientras que el segundo se usa principalmente en los estudios de regresión.

 

*                  Varianza de la regresión en la muestra

 

Es un modo alternativo de hacer contrastes sobre el coeficiente a1. Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación.

El análisis de varianza para regresión consiste en descomponer la variación total de la variable de respuesta en varias partes llamadas fuentes de variación.  

En la ecuación general de la recta de regresión, claramente b es la pendiente de la recta y a el valor de la variable dependiente Y para el que X = 0. En consecuencia, una vez estimados estos coeficientes, en la mayoría de las aplicaciones clínicas el valor de â no tendrá una interpretación directa, mientras que el valor servirá como un indicador del sentido de asociación entre ambas variables: así,   nos indicará una relación directa entre ellas (a mayor valor de la variable explicativa, el valor de la variable dependiente Y aumentará), delatará una relación de tipo inverso, mientras que   nos indica que no existe una relación lineal clara entre ambas variables. Así mismo, y tal y como se deduce de la ecuación de la recta de regresión, el coeficiente b nos da una estimación del cambio por término medio en la variable Y por cada unidad en que se incrementa X. Al igual que ocurre con otros estimadores, existirá cierta incertidumbre en el cálculo de las estimaciones, que se podrá reflejar mediante intervalos de confianza para ambos valores, construidos bajo la hipótesis de normalidad de los residuos, mediante las expresiones:

donde denota al cuantil de orden ß de una distribución t de Student con n-2 grados de libertad.

De igual forma, podemos limitar esta incertidumbre realizando un test para contrastar la hipótesis de que b=0 mediante el cociente y comparando éste con la distribución t de Student con n-2 grados de libertad.  De modo análogo se llevaría a cabo un contraste para la hipótesis a=0.  El hecho de que el test no resulte significativo indicará la ausencia de una relación clara de tipo lineal entre las variables, aunque pueda existir una asociación que no sea captada a través de una recta. Para los datos del ejemplo, el resultado de ajustar un modelo de regresión lineal se muestra en la Tabla 2.

Tabla 2.  Modelo de Regresión Lineal Simple de la Presión sistólica ajustando por edad

Variable

Coeficiente (B)

E.T.(B)

IC 95% (B)

t

p

Constante

103.35

4.33

(94.72; 111.99)

23.89

<0.001

Edad

0.98

0.09

(0.81; 1.16)

11.03

<0.001

Fuente de Variación

Suma de Cuadrados

g.l.

Media cuadrática

F

p

Regresión en edad

14,965.31

1

14,965.31

121.59

<0.001

Residual

8,246.46

67

123.08

 

 

Total

23,211.77

68

 

 

 

La recta así ajustada explica tan sólo una parte de la variabilidad de la variable dependiente, expresada ésta comúnmente por medio de la varianza de Y, mientras que la cantidad de variabilidad que resta por explicar puede ser expresada a través de los residuos. Generalmente un análisis de regresión suele ser expresado por una tabla de análisis de la varianza en la que se refleja toda esta información. En la Tabla 2 se muestra además la tabla correspondiente en el ejemplo de la tensión sistólica. La columna etiquetada por "Suma de cuadrados" muestra una descomposición de la variación total de Y en las partes explicada y no explicada (residual) por la regresión. La proporción de variabilidad explicada por el modelo coincide aquí con el cuadrado del coeficiente de correlación lineal de Pearson, que recibe el nombre de coeficiente de determinación, y que se persigue sea próximo a 1. En nuestro ejemplo sería R2=0.645.

A partir de esta información puede elaborarse un contraste para verificar la utilidad del modelo. En el caso de regresión lineal simple, el estadístico de contraste se reduce a:

que se comparará con el cuantil correspondiente a una distribución F de Snedecor con parámetros 1 y n-1. El test resultante será equivalente al test t para contrastar H0:b=0.

 

*                  Inferencias acerca de los coeficientes de regresión de la población

Coeficientes de Regresión: En un modelo de regresión lineal son los valores de a y b que determinan la expresión de la recta de regresión y = a + b * x

 

*                   Predicción y Pronosticación:

Según el diccionario de la Real Academia Española la palabra Predicción significa: Acción y efecto de predecir, Palabras que manifiestan aquello que se predice

Pronosticación, según el RAE: Acción y efecto de pronosticar. Probabilidad: Verosimilitud o fundada apariencia de verdad. Cualidad de probable, que puede suceder.

 

*                  Análisis de Correlación.- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.

El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

El análisis de correlación emplea métodos para medir la significación del grado o intensidad de asociación entre dos o más variables. El concepto de correlación esta estrechamente vinculado al concepto de regresión, pues, para que una ecuación de regresión sea razonable los puntos muéstrales deben estar ceñidos a la ecuación de regresión; además el coeficiente de correlación debe ser:

- grande cuando el grado de asociación es alto (cerca de +1 o -1, y pequeño cuando es bajo, cerca de ceero.

- independiente de las unidades en que se miden las variables.

 

*                  Coeficiente de Correlación de la población:

El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables:

r=\frac{\sigma_{XY}}{\sigma_{X}\cdot \sigma_{Y}}

Siendo:

σXY la covarianza de (X,Y)

σX y σY las desviaciones típicas de las distribuciones marginales.


El valor del índice de correlación varía en el intervalo [-1 , +1]:


Se dice que una correlación es significativa si la misma se encuentra entre [-1 ; -0,7] o [1 ; 0,7]

*                   Coeficiente de Correlación de la Muestra:

El Coeficiente de correlación de Spearman, ρ (rho), es una prueba no paramétrica que mide la asociación o interdependencia entre dos variables discretas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.

El estadístico ρ viene dado por la expresión:

 \rho = 1- {\frac {6 \sum D^2}{N(N^2 - 1)}}

donde D es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student

t = \frac{\rho}{\sqrt{(1-\rho^2)/(n-2)}}

La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Los datos brutos usados en este ejemplo se ven debajo.

CI

Horas de TV a la semana

106

7

86

0

100

28

100

50

99

28

103

28

97

20

113

12

113

7

110

17

El primer paso es ordenar los datos de la primera columna. Después, se crean dos columnas más. Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Después se crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se crea otra columna "d2". Esta última es sólo la columna d al cuadrado.

Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

 

CI (i)

Horas de TV a la semana (t)

orden(i)

orden(t)

d

d2

86

0

1

1

0

0

97

20

2

6

4

16

99

28

3

8

5

25

100

50

4.5

10

5.5

30.25

100

28

4.5

8

3.5

12.25

103

28

6

8

2

4

106

7

7

2.5

4.5

20.25

110

17

8

5

3

9

113

7

9.5

2.5

7

49

113

12

9.5

4

5.5

30.25

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar \sum d_i^2 = 196. El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.

 \rho = 1- {\frac {6\times196}{10(10^2 - 1)}}

De lo que resulta ρ = − 0.187878787879.

 

 

 

 

 

 

Infografias

 

 

 

http://www.einsteinnet.com/econometria/Introeconometria/regsimple.htm

http://www.udc.es/dep/mate/estadistica2/sec6_1.html

http://www.udc.es/dep/mate/estadistica2/sec6_2.html

http://www.seh-lelha.org/regresion1.htm

http://www.hrc.es/bioest/Introducion_est.html

http://bochica.udea.edu.co/~bcalderon/3_metodosestimacion.html

http://www.monografias.com/trabajos16/metodos-lineales/metodos-lineales.shtml#b

http://209.85.165.104/search?q=cache:fw4Iu1e4h5cJ:math.uprm.edu/~edgar/cap1sl.ppt+Varianza+de+la+regresi%C3%B3n+en+la+muestra&hl=es&ct=clnk&cd=32&gl=ve

http://tarwi.lamolina.edu.pe/~fmendiburu/Documents/metodos1/Regresion.pdf

http://www.dargothar.com/acelven/7/t5.htm

http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

 

Hosted by www.Geocities.ws

1