REPÚBLICA BOLIVARIANA DE VENEZUELA
UNIVERSIDAD YACAMBU.
PREGADO: LICENCIATURA EN CONTADURÍA PÚBLICA
ASIGNATURA: ESTADISTICA INFERENCIAL
Participante: LUCI
RAMÍREZ

Caracas, 02-12-2.007
Modelo de Regresión:
Se
denominan modelos de regresión a los modelos estadísticos que explican la
dependencia de una variable dependiente “Y” respecto de una o varias variables
cuantitativas “X”.
Los Modelos de Regresión estudian la
relación estocástica cuantitativa entre una variable de interés y un conjunto
de variables explicativas. Sea Y la variable de interés, variable respuesta o dependiente y
sean x1,x2,...,xk
las variables explicativas o regresoras. La formulación matemática de estos
modelos es la siguiente
![]()
Donde ε es el error de observación debido a
variables no controladas.
Las
relaciones estocásticas son las que ocurren en la mayoría de las situaciones y
su estudio se corresponde con los
denominados Modelos de Regresión.
El
objetivo básico en el estudio de un modelo de regresión es el de estimar la
función de regresión, m, y
el modelo probabilístico que sigue el error aleatorio ε,
ésto es, estimar la función de distribución F
de la variable de error. La estimación de ambas funciones se
hace a partir del conocimiento de una muestra
de las variables en estudio,
.
Una
vez estimadas estas funciones se tiene conocimiento de:
La relación funcional de la variable
respuesta con las variables regresoras, dada la función de regresión que se
define como sigue:
![]()
Esto permite tener una idea general
del comportamiento de la variable respuesta en función de las regresoras.
Se puede estimar y predecir el valor
de la variable respuesta de un individuo del que se conocen los valores de las
variables regresoras. Esto es, de un individuo t se sabe que X1
= x1,t,...,Xk = xk,t,
entonces se puede predecir el valor de Y t y calcular
un intervalo de predicción del mismo
Los modelos de regresión se
pueden clasificar de dos formas:
Según la metodología utilizada
para su estudio:
1)
Modelos de regresión paramétricos: Se supone que la función de regresión, m, que relaciona a
la variable respuesta con las variables regresoras pertenece una determinada
familia paramétrica. ![]()
donde
=
y
= ![]()
![]()
p
Rp
Por ejemplo, se supone que la
familia paramétrica es lineal
![]()
En este caso, el problema básico es
estimar los parámetros de la familia supuesta a partir de las
observaciones muéstrales. En el ejemplo anterior hay que estimar los parámetros
0,
1,2
,...,
k.
También se
debe contrastar la hipótesis de que la función de regresión pertenece a la
familia paramétrica supuesta. Este enfoque es el que se ha estudiado
clásicamente y que con mayor frecuencia se utiliza en la práctica.
2) Modelos de regresión no
paramétricos. Es un enfoque alternativo que está teniendo una gran
aceptación, con este método no se hace ninguna suposición acerca de la forma
funcional de la regresión y se estima la función de regresión punto a
punto. Esto es, se estima el valor de m
en un enrejado (grid) de valores
i
= 1N de las variables regresoras.
No deben de
considerarse los métodos de regresión paramétricos y los no paramétricos como
competidores sino como métodos complementarios. Siendo recomendable, en la
práctica, utilizar ambos enfoques, pues los dos métodos proporcionan
información complementaria acerca del problema en estudio
Según
la forma de recogida muestral:
1. Modelos de regresión de diseño fijo, en estos modelos las variables regresoras son valores
predeterminados. Este modelo se utiliza en el estudio del comportamiento de una
variable respuesta cuando las variables regresoras varían en una determinada
dirección. En este caso se debe diseñar y realizar un experimento en el que las
variables regresoras se muevan en dicha dirección. Por tanto, en este diseño se
controla en todo momento el valor de las variables regresoras.
2.
Modelos de regresión con diseño aleatorio, en estos
modelos las variables regresoras son
variables aleatorias. Se utiliza este modelo cuando se estudia la relación
entre la variable respuesta y las
variables regresoras a partir de una muestra obtenida de la observación de las variables en unidades de experimentación
elegidas al azar. Esto es, el
experimentador es un observador pasivo en la recogida muestral y los resultados
sólo serán válidos para el rango de variación conjunta
de las variables implicadas en el estudio-
Los objetivos de un modelo de
regresión puede ser dos:
Estimación de Parámetros:
Proceso por el que se
trata de averiguar un parámetro de la población representado, en general, por q
a partir del valor de un estadístico llamado estimador y representado por ![]()
En el modelo de regresión lineal simple hay tres
parámetros que se deben estimar: los coeficientes de la recta de regresión,
0 y
1; y la varianza de la distribución normal,
2.
Métodos de estimación
Los principales métodos de
estimación de parámetros son los siguientes
· Método de los momentos: El método
consiste en igualar los primeros momentos de una población a los momentos
correspondientes de una muestra.
Definición. Se
define el k-ésimo momento (absoluto) de una variable aleatoria discreta como:
Si la
variable aleatoria es continua su k-ésimo momento (absoluto) está dado por:
![]()
El
k-ésimo momento mk de una muestra aleatoria X1, X2,..., Xn es la media de sus
k-ésimas potencias y está dado por:

Entonces si una distribución
tiene p parámetros desconocidos, para su estimación se tendrá lo siguiente:
m1 = m1
m2 = m2
……………
mp = mp
Ejemplo. Si una
variable aleatoria sigue una distribución exponencial con parámetro l,
encontrar el estimador del parámetro usando el método de los momentos.
f(X) = le-lx, x > 0
Como sólo
existe un parámetro, bastará con usar el primer momento, es decir,
m1 = m1
El
primer momento de la distribución exponencial es 1/l, por lo cual se tiene que
![]()
Es decir, el estadístico usado para estimar el parámetro l es el inverso de la
media muestral. Si el parámetro que estuviéramos estimando fuera el valor
esperado q = 1/l, entonces el estimador será la media muestral. Este estimador
es insesgado
· Método de máxima verosimilitud: El
método de estimación de máxima verosimilitud permite, en el caso de un
parámetro o n vector de parámetros poblacionales desconocidos, determinar el
estimador o vector de estimadores que maximizan la función de probabilidad
conjunta de una muestra de n v.a. seleccionadas de la población en estudio.
Sea
la fdp de una
población en la cual queremos determinar
.
Sea x1,x2,….,xn
una muestra de v.a. iid seleccionadas de dicha población, a la función de
probabilidad conjunta L(
) de las n v.a. de la muestra la llamaremos función de
verosimilitud muestral, es decir:
L (
)=L(x1,x2,….,xn;
)
Pero como las v.a. son independientes tenemos: L (
) = f(x1,
) f(x2,
)….f (xn,
). Es decir:
L (
)=![]()
· Mínimos cuadrados: Consiste en encontrar estimadores de los parámetros
de forma tal que minimicen la suma de los cuadrados de los desvíos. Con este
método se obtienen estimadores no viciados y consistentes, pues el mismo
garantiza mínima variancia y suma de desvíos igual a cero.
El procedimiento mas objetivo para ajustar una recta a un conjunto de datos presentados en un diagrama de dispersión se conoce como
“el método de los mínimos cuadrados”. La recta resultante presente a dos
caracterizas importantes:
1. Es nula la suma de las desviaciones verticales de los
puntos a partir de la recta de ajuste ∑
(Y - - Y) = 0
2. Es mínima la suma de los cuadrados de dichas
desviaciones. Ninguna otra recta daría una suma
menor de las desviaciones elevadas al cuadrado ∑ (Y - - Y)² = 0
(mínima)
El procedimiento consiste entonces en minimizar los residuos al cuadrado Ci²
∑ Ci² = ∑
(Yº - Y^)² Reemplazado Y^ nos queda ∑ Ci² = ∑ [Yº - (a + bx) ]²
La obtención de los valores de
a y b que minimizan esta función es un problema que se puede resolver
recurriendo a la derivación parcial de la función en términos de a y b: llamemos
G a la función que se va a minimizar: G = ∑(y – a- bx)²
Tomemos las derivadas
parciales de G respecto de a y b que son las incógnitas y las igualamos a cero;
de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del
modelo que pueden ser resueltas por cualquier método ya sea igualación o
matrices para obtener los valores de a y b.
G = ∑
(y – a- bx)²
Para la
estimación de parámetros de distribuciones de probabilidad los métodos
empleados son los dos primeros, mientras que el segundo se usa principalmente
en los estudios de regresión.
Varianza de
la regresión en la muestra
Es un
modo alternativo de hacer contrastes sobre el coeficiente a1. Consiste en
descomponer la variación de la variable Y de dos componentes: uno la variación
de Y alrededor de los valores predichos por la regresión y otro con la
variación de los valores predichos alrededor de la media. Si no existe
correlación ambos estimadores estimarían la varianza de Y y
si la hay, no. Comparando ambos estimadores con la prueba de
El análisis de varianza para regresión consiste en
descomponer la variación total de la variable de respuesta en varias partes llamadas
fuentes de variación.
En la ecuación general de la
recta de regresión, claramente b es la pendiente de la recta y a el valor de la
variable dependiente Y para el que X = 0. En consecuencia, una vez estimados
estos coeficientes, en la mayoría de las aplicaciones clínicas el valor de â no
tendrá una interpretación directa, mientras que el valor
servirá como
un indicador del sentido de asociación entre ambas variables: así,
nos
indicará una relación directa entre ellas (a mayor valor de la variable
explicativa, el valor de la variable dependiente Y aumentará),
delatará una
relación de tipo inverso, mientras que
nos
indica que no existe una relación lineal clara entre ambas variables. Así
mismo, y tal y como se deduce de la ecuación de la recta de regresión, el
coeficiente b nos da una estimación del cambio por término medio en la variable
Y por cada unidad en que se incrementa X. Al igual que ocurre con otros
estimadores, existirá cierta incertidumbre en el cálculo de las estimaciones,
que se podrá reflejar mediante intervalos de confianza para ambos valores,
construidos bajo la hipótesis de normalidad de los residuos, mediante las
expresiones:


donde
denota al
cuantil de orden ß de una distribución t de Student con n-2 grados de
libertad.
De igual forma, podemos
limitar esta incertidumbre realizando un test para contrastar la hipótesis de
que b=0 mediante el cociente
y comparando
éste con la distribución t de Student con n-2 grados de libertad. De modo
análogo se llevaría a cabo un contraste para la hipótesis a=0. El hecho
de que el test no resulte significativo indicará la ausencia de una relación
clara de tipo lineal entre las variables, aunque pueda existir una asociación
que no sea captada a través de una recta. Para los datos del ejemplo, el
resultado de ajustar un modelo de regresión lineal se muestra en
|
Tabla 2. Modelo de Regresión Lineal Simple de |
|||||
|
Variable |
Coeficiente (B) |
E.T.(B) |
IC 95% (B) |
t |
p |
|
Constante |
103.35 |
4.33 |
(94.72; 111.99) |
23.89 |
<0.001 |
|
Edad |
0.98 |
0.09 |
(0.81; 1.16) |
11.03 |
<0.001 |
|
Fuente de Variación |
Suma de Cuadrados |
g.l. |
Media cuadrática |
F |
p |
|
Regresión en edad |
14,965.31 |
1 |
14,965.31 |
121.59 |
<0.001 |
|
Residual |
8,246.46 |
67 |
123.08 |
|
|
|
Total |
23,211.77 |
68 |
|
|
|
La recta así ajustada explica
tan sólo una parte de la variabilidad de la variable dependiente, expresada
ésta comúnmente por medio de la varianza de Y, mientras que la cantidad de
variabilidad que resta por explicar puede ser expresada a través de los
residuos. Generalmente un análisis de regresión suele ser expresado por una
tabla de análisis de la varianza en la que se refleja toda esta información. En
A partir de esta información puede elaborarse un
contraste para verificar la utilidad del modelo. En el caso de regresión lineal
simple, el estadístico de contraste se reduce a:

que se comparará con el cuantil
correspondiente a una distribución F de Snedecor con parámetros 1 y n-1. El
test resultante será equivalente al test t para contrastar H0:b=0.
Inferencias acerca de los coeficientes de regresión de la
población
Coeficientes de Regresión: En un
modelo de regresión lineal son los valores de a y b que determinan la expresión
de la recta de regresión y = a + b * x
Predicción y Pronosticación:
Según el diccionario de
Pronosticación, según el RAE:
Acción y efecto de pronosticar. Probabilidad: Verosimilitud o fundada
apariencia de verdad. Cualidad de probable, que puede suceder.
Análisis de Correlación.- Es el conjunto de técnicas
estadísticas empleado para medir la intensidad de la asociación entre dos
variables.
El principal objetivo del
análisis de correlación consiste en determinar que tan intensa es la relación
entre dos variables. Normalmente, el primer paso es mostrar los datos en un
diagrama de dispersión.
El análisis de correlación emplea métodos para medir la significación
del grado o intensidad de asociación entre dos o más variables. El concepto de correlación
esta estrechamente vinculado al concepto de regresión, pues, para que una ecuación
de regresión sea razonable los puntos muéstrales deben estar ceñidos a la ecuación
de regresión; además el coeficiente de correlación debe ser:
- grande cuando el grado de asociación es alto (cerca de +1 o
-1, y pequeño cuando es bajo, cerca de ceero.
-
independiente de las unidades en que se miden las variables.
Coeficiente de Correlación de la población:
El coeficiente de
correlación de Pearson es un índice estadístico que mide la relación
lineal entre dos variables cuantitativas. A diferencia de la covarianza, la
correlación de Pearson es independiente de la escala de medida de las
variables.
El
cálculo del coeficiente de correlación lineal se realiza dividiendo la
covarianza por el producto de las desviaciones estándar de ambas variables:
![]()
Siendo:
σXY la covarianza de (X,Y)
σX y σY
las desviaciones típicas de las distribuciones marginales.
El valor del índice de correlación varía en el intervalo [-1 , +1]:
Se dice que una correlación es significativa si la misma se encuentra entre [-1 ; -0,7] o [1 ; 0,7]
Coeficiente de Correlación de
El Coeficiente de
correlación de Spearman, ρ (rho), es una prueba no paramétrica que
mide la asociación o interdependencia entre dos variables discretas. Para
calcular ρ, los datos son ordenados y reemplazados por su respectivo
orden.
El estadístico ρ viene dado por la expresión:

donde
D es la diferencia entre los correspondientes valores de x - y.
N es el número de parejas.
Se tiene que considerar la existencia de datos idénticos
a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal
circunstancia
Para muestras mayores de 20 observaciones, podemos
utilizar la siguiente aproximación a la distribución t de Student

La
interpretación de coeficiente de Spearman es igual que la del coeficiente de
correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas
o positivas respectivamente, 0 cero, significa no correlación pero no
independencia. La tau de Kendall es un coeficiente de correlación por rangos,
inversiones entre dos ordenaciones de una distribución normal bivariante.
Los datos brutos usados en este ejemplo se ven debajo.
|
CI |
Horas
de TV a la semana |
|
106 |
7 |
|
86 |
0 |
|
100 |
28 |
|
100 |
50 |
|
99 |
28 |
|
103 |
28 |
|
97 |
20 |
|
113 |
12 |
|
113 |
7 |
|
110 |
17 |
El
primer paso es ordenar los datos de la primera columna. Después, se crean dos
columnas más. Ambas son para ordenar (establecer un lugar en la lista) de las
dos primeras columnas. Después se crea una columna "d" que muestra
las diferencias entre las dos columnas de orden. Finalmente, se crea otra
columna "d2". Esta última es sólo la columna d al
cuadrado.
Después
de realizar todo esto con los datos del ejemplo, se debería acabar con algo
como lo siguiente:
|
CI
(i) |
Horas
de TV a la semana (t) |
orden(i) |
orden(t) |
d |
d2 |
|
86 |
0 |
1 |
1 |
0 |
0 |
|
97 |
20 |
2 |
6 |
4 |
16 |
|
99 |
28 |
3 |
8 |
5 |
25 |
|
100 |
50 |
4.5 |
10 |
5.5 |
30.25 |
|
100 |
28 |
4.5 |
8 |
3.5 |
12.25 |
|
103 |
28 |
6 |
8 |
2 |
4 |
|
106 |
7 |
7 |
2.5 |
4.5 |
20.25 |
|
110 |
17 |
8 |
5 |
3 |
9 |
|
113 |
7 |
9.5 |
2.5 |
7 |
49 |
|
113 |
12 |
9.5 |
4 |
5.5 |
30.25 |
Nótese
como el número de orden de los valores que son idénticos es la media de los
números de orden que les corresponderían si no lo fueran.
Los
valores de la columna d2 pueden ser sumados para averiguar
.
El valor de n es 10. Así que esos valores pueden ser sustituidos en la fórmula.
![]()
De lo
que resulta ρ = − 0.187878787879.
Infografias
http://www.einsteinnet.com/econometria/Introeconometria/regsimple.htm
http://www.udc.es/dep/mate/estadistica2/sec6_1.html
http://www.udc.es/dep/mate/estadistica2/sec6_2.html
http://www.seh-lelha.org/regresion1.htm
http://www.hrc.es/bioest/Introducion_est.html
http://bochica.udea.edu.co/~bcalderon/3_metodosestimacion.html
http://www.monografias.com/trabajos16/metodos-lineales/metodos-lineales.shtml#b
http://tarwi.lamolina.edu.pe/~fmendiburu/Documents/metodos1/Regresion.pdf
http://www.dargothar.com/acelven/7/t5.htm
http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman