UNIVERSIDAD YACAMBU

Licenciatura Virtual en Contaduría Pública.

Prof. Sandi Quintero.

Participante: Nelson Torcate Méndez

Trabajo Nº 11: Estadística Inferencial

Análisis de Regresión Lineal Simple y Correlación

INTRODUCCIÓN:

Se presenta el presente trabajo como requisito de la asignatura Estadística Inferencial, con la finalidad adquirir los conocimientos que permitirán conformar la base estadística para predecir eventos futuros, para lo cual se debe estudiar situaciones actuales aplicando métodos, herramientas y técnicas estadísticas para analizar información, de un volumen importante de datos, de interés, para la Gerencia Estratégica de las organizaciones. Este trabajo se estructuro de la siguiente forma y con el siguiente contenido: Modelos de Regresión, Estimación de parámetros, Varianza de la Regresión en la muestra, Inferencia acerca de los coeficientes de regresión de la Población, Predicción y pronosticación (pronostico), Análisis de Correlación y Coeficiente de correlación.

RESUMEN:

El trabajo de investigación presenta en forma muy sucinta los principales conceptos Análisis de Regresión lineal simple y correlación; entendiéndose la primera como: Una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dada. Por su lado entendemos Correlación como: La medida de la asociación lineal entre dos variables.

DESARROLLO:

Análisis de Regresión Lineal simple y Correlación.

1.- Modelo de Regresión:

La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dada.

La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo cual es necesario realizar una selección adecuada de las variables que van a construir las ecuaciones de la regresión, ya que tomar variables que no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir ilógico.

Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre otras. Las ecuaciones de cada relación se presentan en la siguiente tabla.

Tabla 1. Ecuaciones de regresión

REGRESIÓN	ECUACIÓN
Lineal	y = A + Bx
Logarítmica	y = A + BLn(x)
Exponencial	y = Ae^(Bx)
Cuadrática	y = A + Bx +Cx²

Sin embargo obtener el modelo de regresión no es suficiente para establecer la regresión, ya que es necesario evaluar que tan adecuado es el modelo de regresión obtenido. Para esto se hace uso del coeficiente de correlación R, el cual mide el grado de relación existente entre las variables. El valor de R varia entre -1 y 1, pero en la práctica se trabaja con el valor absoluto de R, entonces, a medida que R se aproxime a 1, más grande es el grado de correlación entre los datos, de acuerdo con esto el coeficiente de correlación se puede clasificar de varias formas, como se observa en la Tabla 2.

Tabla 2. Clasificación del grado de correlación.

CORRELACIÓN	VALOR O RANGO
Perfecta	\|R\| = 1
Excelente	0.9 <= \|R\| < 1
Buena	0.8 <= \|R\| < 0.9
Regular	0.5 <= \|R\| <0.8
Mala	\|R\|< 0.5

Por lo tanto el análisis de regresión es una herramienta estadística que permite analizar y predecir o estimar observaciones futuras de dos o más variables relacionadas entre sí, es decir una herramienta útil para la planificación.

2.- Estimación de Parámetros:

En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,...) pero no los parámetros. Para calcularlos necesitaríamos tener todos los posibles valores de la variable, lo que no suele ser posible.

La inferencia estadística trata de cómo obtener información (inferir) sobre los parámetros a partir de subconjuntos de valores (muestras) de la variable.

Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para calcularla.

Estimación: Proceso por el que se trata de averiguar un parámetro de la población representado, en general, por q a partir del valor de un estadístico llamado estimador y representado por

El problema se resuelve en base al conocimiento de la "distribución muestral" del estadístico que se use.

¿Qué es esto? Concretemos, p. e. en la media (m). Si para cada muestra posible calculamos la media muestral obtenemos un valor distinto (La media es un estadístico: es una variable aleatoria y sólo depende de la muestra), habrá por tanto una fpd para la media, llamada distribución muestral de medias. La desviación típica de esta distribución se denomina error típico de la media.

Evidentemente, habrá una distribución muestral para cada estadístico, no sólo para la media, y en consecuencia un error típico para cada estadístico.

Si la distribución muestral de un estadístico estuviera relacionada con algún parámetro de interés, ese estadístico podría ser un estimador del parámetro.

3.- Varianza de la Regresión en la Muestra:

Análisis de la varianza de la regresión. Es un modo alternativo de hacer contrastes sobre el coeficiente a1. Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación.

Es un modo alternativo de hacer contrastes sobre el coeficiente a₁. Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación.

Obsérvese que el valor de p es igual que antes (son contrastes equivalentes) y el valor de F es el cuadrado del de t.

4.- Inferencia acerca de los coeficientes de Regresión de la Población:

Con respecto a prueba de hipótesis lo más frecuente es probar Ho: = 0 versus Ha: ¹ 0 y Ho: = 0 versus Ha: ¹ 0. De aceptarse la primera hipótesis significaría que la línea de regresión pasaría por el origen, es decir, que cuando la variable predictora es cero, entonces el valor promedio de la variable de respuesta es también cero. De aceptarse la segunda hipótesis significaría que la pendiente de la línea de regresión es cero, es decir, que la variable predictora no se relaciona linealmente con la variable de respuesta. En ambos casos la prueba estadística que se usa es una prueba de t de Student.

Sólo discutiremos la prueba de hipótesis para la pendiente. La prueba estadística viene dada por:

t = (ĝ/s. e. (ĝ)) = ĝ/ s/Raíz cuadrada( Sxx)

La cual se distribuye como una t con n-2 grados de libertad. Aquí

S= Raíz Cuadrada (Somatória desde i = 1 hasta n de (ĵ_i - j_i)/ n- 2

es la desviación estándar del error, Sxx es la suma de cuadrados corregida de la variable X y s. e(ĝ) es el error estándar de ĝ.

5.- Predicción y Pronosticación:

Pronóstico: Estimación anticipada del valor de una variable, por ejemplo: la demanda de un producto.

Presupuesto: Valor anticipado de la variable que una compañía está en posibilidad de concretizar, por ejemplo: la cantidad de producto que la compañía decide fabricar en función de la demanda y de la capacidad instalada.

El conocimiento de las técnicas de pronósticos es de poco valor a menos que puedan aplicarse efectivamente en el proceso de planeación de la organización.

Usos de los pronósticos: Mercadotecnia, Tamaño del mercado, Participación en el mercado, Tendencia de precios, Desarrollo de nuevos productos, Producción, Costo de materia prima, Costo de mano de obra, Disponibilidad de materia prima, Disponibilidad de mano de obra, Requerimientos de mantenimiento, Capacidad disponible de la planta para la producción, Finanzas, Tasas de interés, Cuentas de pagos lentos, Recursos Humanos, Número de trabajadores, Rotación de personal, Tendencias de ausentismo, Tendencia de llegadas tarde, Planeación Estratégica, Factores económicos, Cambios de precios, Costos y Crecimiento de líneas de productos.

Características de los Pronósticos:

Primera. Todas las situaciones en que se requiere un pronóstico, tratan con el futuro y el tiempo está directamente involucrado. Así, debe pronosticarse para un punto específico en el tiempo y el cambio de ese punto generalmente altera el pronóstico.

Segunda. Otro elemento siempre presente en situaciones de pronósticos es la incertidumbre. Si el administrador tuviera certeza sobre las circunstancias que existirán en un tiempo dado, la preparación de un pronóstico seria trivial.

Tercera. El tercer elemento, presente en grado variable en todas las situaciones descritas es la confianza de la persona que hace el pronóstico sobre la información contenida en datos históricos.

Selección del Método de Pronósticos

Factores

El contexto del pronóstico

La relevancia y disponibilidad de datos históricos

El grado de exactitud deseado

El periodo de tiempo que se va a pronosticar

El análisis de costo-beneficio del pronóstico

El punto del ciclo de vida en que se encuentra el producto.

CLASIFICACIÓN DE LOS MODELOS DE PRONÓSTICOS

Métodos de Pronósticos

Cualitativos
Cuantitativos

Análisis de series de tiempo

Modelos causales

Métodos Cualitativos

Usos de estos métodos. Las técnicas cualitativas se usan cuando los datos son escasos, por ejemplo cuando se introduce un producto nuevo al mercado.

Estas técnicas usan el criterio de la persona y ciertas relaciones para transformar información cualitativa en estimados cuantitativos.

Método Delphi. Se usa para pronósticos a largo plazo, pronósticos de ventas de productos nuevos y pronósticos tecnológicos.

Tiempo estimado, más de dos meses.

Exactitud, de regular a muy buena.

Investigación de Mercados. Se usa para evaluar y probar hipótesis acerca de mercados reales.

Tiempo estimado, más de tres meses.

Exactitud, puede ser excelente, dependiendo del cuidado que se haya puesto en el trabajo.

Consenso de un Panel. Tiene los mismos usos que el Método Delphi.

Tiempo estimado, más de dos semanas.

Exactitud, de baja a regular.

Pronósticos Visionarios. Se usa para hacer una profecía del futuro usando la intuición personal.

Tiempo estimado, una semana.

Exactitud, mala.

Analogía Histórica. Se usa para productos nuevos, basándose en el análisis comparativo de la introducción y crecimiento de productos similares.

Tiempo estimado, más de un mes.

Exactitud, de buena a regular.

Métodos Cuantitativos

Análisis de series de tiempo. El análisis consiste en encontrar el patrón del pasado y proyectarlo al futuro.

Patrones de una serie de tiempo:

Horizontal o estacionario

· Tendencia a largo plazo

Efecto estacional

· Efecto cíclico

Métodos de proyección. Estos métodos tratan de encontrar el patrón total de los datos para proyectarlos al futuro, y son:

· Promedios Móviles

· Suavización Exponencial

· Box-Jenkins

Método de separación. Es aquel que separa la serie en sus componentes para identificar el patrón de cada componente, y se llama, Método de
Descomposición de Series de Tiempo.

Modelos Causales

Modelos de Regresión

Regresión lineal simple

Regresión lineal múltiple

Modelos Econométricos. Un modelo econométrico es un sistema de ecuaciones de regresión interdependientes que describe algún sector de actividades económicas, ventas o utilidades.

Encuestas de intenciones de compra y anticipaciones. Estas encuestas que se hacen al público, determinan:

a. Las intenciones de compra de ciertos productos.

b. Derivan un índice que mide el sentimiento general sobre el consumo presente y futuro y estiman como afectan estos sentimientos a los hábitos de consumo. Este enfoque para hacer pronósticos es más útil que otras técnicas para seguir el desarrollo de la demanda y para señalar puntos de peligro.

Modelo de insumo-producto. Método de análisis que determina el flujo de bienes y servicios ínter industrial o interdepartamental en una economía o en una compañía y su mercado. Muestra flujos de insumos que deben ocurrir para obtener ciertos productos.

6.- Análisis de Correlación:

Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.

El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

La correlación es una medida de la asociación lineal entre dos variables. La correlación fue utilizada por primera vez por Sir Francis Galton, aunque su discípulo Karl Pearson (1857-1936) fue quien estudió en profundidad sus propiedades. Karl Pearson fue profesor de matemáticas aplicadas y mecánica en el “University College of London”, autor de la prueba Chi-Cuadrado y del análisis de componentes principales. La correlación de rangos fue introducida por primera vez por el psicólogo Charles Edward Spearman (1863-1945) en 1904 al intentar construir una teoría de la inteligencia. Fórmulas básicas La correlación mide la relación lineal entre dos variables y su sentido (si es directo o inverso). Cuando la relación es perfectamente lineal dicho coeficiente vale 1 (ó -1). Cuando el coeficiente tiene un valor próximo a cero, o bien no existe relación entre las variables analizadas o bien dicha relación no es lineal. La correlación habitualmente denotada por r se puede estimar de dos maneras diferentes:- El coeficiente de correlación de Pearson denotado por r es utilizado cuando ambas variables son cuantitativas siguiendo una distribución normal.- El coeficiente de correlación de Spearman denotado por r s se utiliza cuando alguna de las variables es ordinal o incluso dicotómica o para variables cuantitativas con muestras pequeñas. Ambos coeficientes son adimensionales y se calculan de forma análoga, aunque en el caso del coeficiente de Spearman se utilizan los rangos de los valores en lugar de los valores originales, siendo adecuado para muestras pequeñas puesto que es robusto a la presencia de “outliers” (valores extremos). El coeficiente de correlación de Pearson se obtiene calculando en primer lugar la covarianza entre las variables, que es una medida de asociación con dependencia de las unidades de medida de las variables. Después se divide por el producto de cada una de las desviaciones típicas de ambas variables, resultando una medida de asociación adimensional. Para cada coeficiente obtenido se puede realizar el siguiente el contraste de hipótesis para determinar si el coeficiente es igual a cero: H0: r = 0H1: r ¹ 0Mediante estos contrastes se puede establecer aquellos coeficientes que son estadísticamente significativos. Aunque exista una correlación significativa entre dos variables, no se debe confundir correlación con causalidad, la relación de causa debe ser determinada mediante el conocimiento del área de estudio. Correlación de Pearson Se recogen datos experimentales correspondientes a n individuos con información de dos variables Var1y Var2. Para calcular el coeficiente de correlación r de Pearson entre estas dos variables se necesita calcular previamente la covarianza entre las dos variables y las desviaciones típicas muéstrales. Correlación de Spearman El coeficiente de correlación de Spearman es una técnica no paramétrica que se basa en los rangos envés de en los valores originales de la variable. Cálculo de Rangos Para los datos de las variables Var1 y Var2 se calculan los rangos de los valores de éstas, a los que se denota por: Ri(Var1) y Ri(Var2), siendo Ri(Var1) los rangos de Var1 asociados al individuo i y Ri(Var2) los rangos de Var2 asociados al individuo i.

6.- Coeficiente de Correlación.

Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos variables.

El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables.

Es un valor cuantitativo entre dos o más variables y puede variar desde -1.00 hasta 1.00; la correlación de proporcionalidad directa o positiva se establece con los valores +1.00 y los de proporcionalidad inversa o negativa, con -1.00. No existe relación entre las variables cuando el valor es 0.00

INFOGRAFIA:

1. http://www.monografias.com/trabajos14/estadistica/estadistica.shtml

2. http://www.hrc.es/bioest/Introducion_est.html

3. http://www.fca.unl.edu.ar/InferEst/EstimParam.htm#EstiParam

4. http://www.hrc.es/bioest/Reglin_6.html

5. http://estadistico.com/dic.html?p=3689

6. http://estadistico.com/dic.html?p=3576

7. http://math.uprag.edu/cap9.pdf

8. http://www.gestiopolis.com/recursos/experto/catsexp/pagans/mar/50/pronostico.htm

9. http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml