UNIVERSIDAD
YACAMBU
Licenciatura
Virtual en Contaduría Pública.
Prof. Sandi
Quintero.
Participante:
Nelson Torcate Méndez
Trabajo Nº 11: Estadística Inferencial
Análisis de Regresión Lineal Simple y
Correlación
INTRODUCCIÓN:
Se presenta el presente trabajo como requisito
de la asignatura Estadística Inferencial, con la finalidad adquirir los conocimientos que permitirán conformar la
base estadística para predecir eventos futuros, para lo cual se debe estudiar
situaciones actuales aplicando métodos,
herramientas y técnicas estadísticas para analizar información, de un volumen
importante de datos, de interés, para
El trabajo de investigación presenta en forma muy
sucinta los principales conceptos Análisis de Regresión lineal simple y
correlación; entendiéndose la primera como: Una
técnica estadística utilizada para simular la relación existente entre dos o
más variables. Por lo tanto se puede emplear para construir un modelo que
permita predecir el comportamiento de una variable dada. Por su lado entendemos
Correlación como: La medida de la asociación lineal entre dos variables.
DESARROLLO:
Análisis de
Regresión Lineal simple y Correlación.
1.- Modelo de Regresión:
La regresión es una técnica estadística
utilizada para simular la relación existente entre dos o más variables. Por lo
tanto se puede emplear para construir un modelo que permita predecir el
comportamiento de una variable dada.
La regresión es muy utilizada para
interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo
cual es necesario realizar una selección adecuada de las variables que van a
construir las ecuaciones de la regresión, ya que tomar variables que no tengan
relación en la práctica, nos arrojará un modelo carente de sentido, es decir
ilógico.
Según sea la dispersión de los datos
(nube de puntos) en el plano cartesiano, pueden darse alguna de las siguientes
relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre otras. Las
ecuaciones de cada relación se presentan en la siguiente tabla.
Tabla 1. Ecuaciones de regresión
REGRESIÓN |
ECUACIÓN |
Lineal |
y = A + Bx |
Logarítmica |
y = A + BLn(x) |
Exponencial |
y = Ae(Bx) |
Cuadrática |
y = A + Bx +Cx2 |
Sin embargo obtener el modelo de
regresión no es suficiente para establecer la regresión, ya que es necesario
evaluar que tan adecuado es el modelo de regresión obtenido. Para esto se hace
uso del coeficiente de correlación R, el cual mide el grado de relación
existente entre las variables. El valor de R varia entre -1 y 1, pero en la
práctica se trabaja con el valor absoluto de R, entonces, a medida que R se
aproxime a 1, más grande es el grado de correlación entre los datos, de acuerdo
con esto el coeficiente de correlación se puede clasificar de varias formas,
como se observa en
Tabla 2. Clasificación del grado de
correlación.
CORRELACIÓN |
VALOR O RANGO |
Perfecta |
|R| = 1 |
Excelente |
0.9 <= |R|
< 1 |
Buena |
0.8 <= |R|
< 0.9 |
Regular |
0.5 <= |R|
<0.8 |
Mala |
|R|< 0.5 |
Por lo tanto el análisis de regresión es
una herramienta estadística que permite analizar y predecir o estimar
observaciones futuras de dos o más variables relacionadas entre sí, es decir
una herramienta útil para la planificación.
2.- Estimación de
Parámetros:
En general, de las variables
experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,...) pero no
los parámetros. Para calcularlos
necesitaríamos tener todos los
posibles valores de la variable, lo que no suele ser posible.
La inferencia estadística trata de cómo
obtener información (inferir)
sobre los parámetros a partir de subconjuntos de valores (muestras) de la variable.
Estadístico: variable aleatoria que sólo depende de
la muestra aleatoria elegida para calcularla.
Estimación: Proceso por el que se trata de averiguar
un parámetro de la población representado, en general, por q a partir del valor
de un estadístico llamado estimador y representado por
El problema se resuelve en base al
conocimiento de la "distribución
muestral" del estadístico que se use.
¿Qué es esto? Concretemos, p. e. en la
media (m). Si para cada muestra posible calculamos la media muestral obtenemos un valor distinto (La media es un
estadístico: es una variable aleatoria y sólo depende de la muestra), habrá por
tanto una fpd para la media,
llamada distribución muestral de medias. La desviación típica de esta
distribución se denomina error típico
de la media.
Evidentemente, habrá una distribución
muestral para cada estadístico, no sólo para la media, y en consecuencia un
error típico para cada estadístico.
Si la distribución muestral de un
estadístico estuviera relacionada con algún parámetro de interés, ese
estadístico podría ser un estimador del parámetro.
3.- Varianza de
Análisis de la varianza de la regresión. Es un modo alternativo de
hacer contrastes sobre el coeficiente a1. Consiste en descomponer la variación
de la variable Y de dos componentes: uno la variación de Y alrededor de los
valores predichos por la regresión y otro con la variación de los valores
predichos alrededor de la media. Si no existe correlación ambos estimadores
estimarían la varianza de Y y si la hay, no.
Comparando ambos estimadores con la prueba de
Es un modo alternativo de hacer contrastes sobre el
coeficiente a1. Consiste en descomponer la variación de la variable
Y de dos componentes: uno la variación de Y alrededor de los valores predichos
por la regresión y otro con la variación de los valores predichos alrededor de
la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la
hay, no. Comparando ambos estimadores con la prueba de
Obsérvese que el valor de p es igual que antes (son contrastes equivalentes) y el valor de
F es el cuadrado del de t.
4.- Inferencia acerca de
los coeficientes de Regresión de
Con respecto a prueba
de hipótesis lo más frecuente es probar Ho: = 0 versus Ha: ¹ 0 y Ho: = 0 versus
Ha: ¹ 0. De aceptarse la primera hipótesis significaría que la línea de
regresión pasaría por el origen, es decir, que cuando la variable predictora es
cero, entonces el valor promedio de la variable de respuesta es también cero.
De aceptarse la segunda hipótesis significaría que la pendiente de la línea de
regresión es cero, es decir, que la variable predictora no se relaciona
linealmente con la variable de respuesta. En ambos casos la prueba estadística
que se usa es una prueba de t de Student.
Sólo discutiremos la
prueba de hipótesis para la pendiente. La prueba estadística viene dada por:
t
= (ĝ/s. e. (ĝ)) = ĝ/ s/Raíz cuadrada( Sxx)
La cual se distribuye como
una t con n-2 grados de libertad. Aquí
S= Raíz Cuadrada (Somatória desde i = 1 hasta n de (ĵi
- ji)/ n- 2
es la desviación estándar del error, Sxx es la suma de
cuadrados corregida de la variable X y s. e(ĝ) es el error estándar de ĝ.
5.- Predicción y
Pronosticación:
Pronóstico: Estimación anticipada del valor de una variable, por ejemplo: la
demanda de un producto.
Presupuesto: Valor anticipado de la variable que una compañía está en
posibilidad de concretizar, por ejemplo: la cantidad de producto que la
compañía decide fabricar en función de la demanda y de la capacidad instalada.
El conocimiento de las técnicas de pronósticos es de poco valor
a menos que puedan aplicarse efectivamente en el proceso de planeación de la
organización.
Usos de los pronósticos: Mercadotecnia, Tamaño del mercado, Participación
en el mercado, Tendencia de precios, Desarrollo de nuevos productos,
Producción, Costo de materia prima, Costo de mano de obra, Disponibilidad de
materia prima, Disponibilidad de mano de obra, Requerimientos de mantenimiento,
Capacidad disponible de la planta para la producción, Finanzas, Tasas de
interés, Cuentas de pagos lentos, Recursos Humanos, Número de trabajadores, Rotación
de personal, Tendencias de ausentismo, Tendencia de llegadas tarde, Planeación
Estratégica, Factores económicos, Cambios de precios, Costos y Crecimiento de
líneas de productos.
Características de los Pronósticos:
Primera. Todas las situaciones en que se requiere un pronóstico,
tratan con el futuro y el tiempo está directamente involucrado. Así, debe
pronosticarse para un punto específico en el tiempo y el cambio de ese punto
generalmente altera el pronóstico.
Segunda. Otro elemento siempre presente en situaciones de
pronósticos es la incertidumbre. Si el administrador tuviera certeza sobre las
circunstancias que existirán en un tiempo dado, la preparación de un pronóstico
seria trivial.
Tercera. El tercer elemento, presente en grado variable en todas
las situaciones descritas es la confianza de la persona que hace el pronóstico
sobre la información contenida en datos históricos.
Selección del Método de Pronósticos
Factores
El contexto del pronóstico
La relevancia y disponibilidad de datos históricos
El grado de exactitud deseado
El periodo de tiempo que se va a pronosticar
El análisis de costo-beneficio del pronóstico
El punto del ciclo de vida en que se encuentra el producto.
CLASIFICACIÓN DE LOS MODELOS DE PRONÓSTICOS
Métodos de Pronósticos
Cualitativos
Cuantitativos
Análisis de series de tiempo
Modelos causales
Métodos Cualitativos
Usos de estos métodos. Las técnicas cualitativas se usan cuando
los datos son escasos, por ejemplo cuando se introduce un producto nuevo al
mercado.
Estas técnicas usan el criterio de la persona y ciertas
relaciones para transformar información cualitativa en estimados cuantitativos.
Método Delphi. Se usa para pronósticos a largo plazo, pronósticos de ventas de
productos nuevos y pronósticos tecnológicos.
Tiempo estimado, más de dos meses.
Exactitud, de regular a muy buena.
Investigación de Mercados. Se usa para evaluar y probar
hipótesis acerca de mercados reales.
Tiempo estimado, más de tres meses.
Exactitud, puede ser excelente, dependiendo del cuidado que se
haya puesto en el trabajo.
Consenso de un Panel. Tiene los mismos usos que el Método Delphi.
Tiempo estimado, más de dos semanas.
Exactitud, de baja a regular.
Pronósticos Visionarios. Se usa para hacer una profecía del
futuro usando la intuición personal.
Tiempo estimado, una semana.
Exactitud, mala.
Analogía Histórica. Se usa para productos nuevos, basándose en
el análisis comparativo de la introducción y crecimiento de productos
similares.
Tiempo estimado, más de un mes.
Exactitud, de buena a regular.
Métodos Cuantitativos
Análisis de series de tiempo. El análisis consiste en encontrar
el patrón del pasado y proyectarlo al futuro.
Patrones de una serie de tiempo:
Horizontal o estacionario
· Tendencia a largo plazo
Efecto estacional
· Efecto cíclico
Métodos de proyección. Estos métodos tratan de encontrar el
patrón total de los datos para proyectarlos al futuro, y son:
· Promedios Móviles
· Suavización Exponencial
· Box-Jenkins
Método de separación. Es aquel que separa la serie en sus
componentes para identificar el patrón de cada componente, y se llama, Método
de
Descomposición de Series de Tiempo.
Modelos Causales
Modelos de Regresión
Regresión lineal simple
Regresión lineal múltiple
Modelos Econométricos. Un modelo econométrico es un sistema de
ecuaciones de regresión interdependientes que describe algún sector de
actividades económicas, ventas o utilidades.
Encuestas de intenciones de compra y anticipaciones. Estas
encuestas que se hacen al público, determinan:
a. Las intenciones de compra de ciertos productos.
b. Derivan un índice que mide el sentimiento general sobre el
consumo presente y futuro y estiman como afectan estos sentimientos a los
hábitos de consumo. Este enfoque para hacer pronósticos es más útil que otras
técnicas para seguir el desarrollo de la demanda y para señalar puntos de
peligro.
Modelo de insumo-producto. Método de análisis que determina el
flujo de bienes y servicios ínter industrial o interdepartamental en una
economía o en una compañía y su mercado. Muestra flujos de insumos que deben
ocurrir para obtener ciertos productos.
6.- Análisis de
Correlación:
Es el conjunto de técnicas estadísticas empleado para medir la
intensidad de la asociación entre dos variables.
El principal objetivo del análisis de correlación consiste en
determinar que tan intensa es la relación entre dos variables. Normalmente, el
primer paso es mostrar los datos en un diagrama de dispersión.
La
correlación es una medida de la asociación lineal entre dos variables. La
correlación fue utilizada por primera vez por Sir Francis Galton, aunque su
discípulo Karl Pearson (1857-1936) fue quien estudió en profundidad sus
propiedades. Karl Pearson fue profesor de matemáticas aplicadas y mecánica en
el “University College of London”, autor de la prueba
Chi-Cuadrado y del análisis de componentes principales. La correlación de
rangos fue introducida por primera vez por el psicólogo Charles Edward Spearman
(1863-1945) en 1904 al intentar construir una teoría de la inteligencia. Fórmulas
básicas La correlación mide la relación lineal entre dos variables y su sentido
(si es directo o inverso). Cuando la relación es perfectamente lineal dicho
coeficiente vale 1 (ó -1). Cuando el coeficiente tiene un valor próximo a cero,
o bien no existe relación entre las variables analizadas o bien dicha relación
no es lineal. La correlación habitualmente denotada por r se puede estimar de
dos maneras diferentes:- El coeficiente de correlación de Pearson denotado por
r es utilizado cuando ambas variables son cuantitativas siguiendo una
distribución normal.- El coeficiente de correlación de Spearman denotado por r s
se utiliza cuando alguna de las variables es ordinal o incluso dicotómica o
para variables cuantitativas con muestras pequeñas. Ambos coeficientes son
adimensionales y se calculan de forma análoga, aunque en el caso del coeficiente
de Spearman se utilizan los rangos de los valores en lugar de los valores
originales, siendo adecuado para muestras pequeñas puesto que es robusto a la
presencia de “outliers” (valores extremos). El coeficiente de correlación de
Pearson se obtiene calculando en primer lugar la covarianza entre las
variables, que es una medida de asociación con dependencia de las unidades de
medida de las variables. Después se divide por el producto de cada una de las
desviaciones típicas de ambas variables, resultando una medida de asociación
adimensional. Para cada coeficiente obtenido se puede realizar el siguiente el
contraste de hipótesis para determinar si el coeficiente es igual a cero: H0: r
= 0H1: r ¹ 0Mediante estos contrastes se puede establecer aquellos coeficientes
que son estadísticamente significativos. Aunque exista una correlación
significativa entre dos variables, no se debe confundir correlación con
causalidad, la relación de causa debe ser determinada mediante el conocimiento
del área de estudio. Correlación de Pearson Se recogen datos experimentales
correspondientes a n individuos con información de dos variables Var1y Var2.
Para calcular el coeficiente de correlación r de Pearson entre estas dos
variables se necesita calcular previamente la covarianza entre las dos
variables y las desviaciones típicas muéstrales. Correlación de Spearman El
coeficiente de correlación de Spearman es una técnica no paramétrica que se
basa en los rangos envés de en los valores originales de la variable. Cálculo
de Rangos Para los datos de las variables Var1 y Var2 se calculan los rangos de
los valores de éstas, a los que se denota por: Ri(Var1)
y Ri(Var2), siendo Ri(Var1) los rangos de Var1 asociados al individuo i y
Ri(Var2) los rangos de Var2 asociados al individuo i.
6.- Coeficiente de Correlación.
Describe la intensidad de la relación entre dos conjuntos de
variables de nivel de intervalo. Es la medida de la intensidad de la relación
lineal entre dos variables.
El valor del coeficiente de correlación puede tomar valores desde
menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del
coeficiente de correlación, en cualquier dirección, más fuerte será la
asociación lineal entre las dos variables. Mientras más cercano a cero sea el
coeficiente de correlación indicará que más débil es la asociación entre ambas
variables. Si es igual a cero se concluirá que no existe relación lineal alguna
entre ambas variables.
Es un valor cuantitativo entre dos o más variables y puede variar
desde -1.00 hasta 1.00; la correlación de proporcionalidad directa o positiva
se establece con los valores +1.00 y los de proporcionalidad inversa o
negativa, con -1.00. No existe relación entre las variables cuando el valor es
0.00
INFOGRAFIA:
1.
http://www.monografias.com/trabajos14/estadistica/estadistica.shtml
2.
http://www.hrc.es/bioest/Introducion_est.html
3.
http://www.fca.unl.edu.ar/InferEst/EstimParam.htm#EstiParam
4.
http://www.hrc.es/bioest/Reglin_6.html
5.
http://estadistico.com/dic.html?p=3689
6.
http://estadistico.com/dic.html?p=3576
7.
http://math.uprag.edu/cap9.pdf
8.
http://www.gestiopolis.com/recursos/experto/catsexp/pagans/mar/50/pronostico.htm
9.
http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml