República Bolivariana de Venezuela

Ministerio de Educación Superior

Universidad Yacambú

Vicerrectorado estudios a distancia

 

 

 

 

 

 

 

 

 

Estadística Inferencial

T11

 

 

 

 

 

 

 

 

Realizado por:

Gustavo Jaime

CI Nº 11962050

 

 

 

Barquisimeto; Noviembre 2007

INTRODUCCIÓN

En muchas situaciones de la vida real, se presentan problemas en los cuales existe una relación entre dos o más variables y se hace necesario encontrar la naturaleza de esta relación.
Es conocido que existe una relación entre una variable denominada dependiente y otras denominadas independientes (como por ejemplo las existentes entre: la experiencia profesional de los trabajadores y sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el problema de que la dependiente asuma múltiples valores para una combinación de valores de las independientes.

La dependencia a la que se hace referencia es relacional matemática y no necesariamente de causalidad. Así, para un mismo número de unidades producidas, pueden existir niveles de costo, que varían empresa a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de regresión en los cuales se obtiene una nueva relación pero de un tipo especial denominado función, en la cual la variable independiente se asocia con un indicador de tendencia central de la variable dependiente. Cabe recordar que en términos generales, una función es un tipo de relación en la cual para cada valor de la variable independiente le corresponde uno y sólo un valor de la variable dependiente.

1) Regresión Lineal Simple y Correlación

La Regresión y la correlación son dos técnicas estadísticas que se pueden utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable.

Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.

"Y es una función de X"

Y = f(X)

Como Y depende de X,

Y es la variable dependiente, y

X es la variable independiente.

En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.

En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Divariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:

Y = f (X)

"Y está regresando por X"

La variable dependiente es la variable que se desea explicar, predecir. También se le llama REGRESANDO ó VARIABLE DE RESPUESTA.

La variable Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza para EXPLICAR Y.

Análisis Estadístico: Regresión Lineal Simple

En el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación:

Y = a + b X + 

Donde:

a es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y.

b es el coeficiente de regresión poblacional (pendiente de la línea recta)

 es el error

Suposiciones de la regresión lineal

1.            Los valores de la variable independiente X son fijos, medidos sin error.

2.            La variable Y es aleatoria

3.            Para cada valor de X, existe una distribución normal de valores de Y (subpoblaciones Y)

4.            Las variancias de las subpoblaciones Y son todas iguales.

5.            Todas las medias de las subpoblaciones de Y están sobre la recta.

6.            Los valores de Y están normalmente distribuidos y son estadísticamente independientes.

Estimación de la ecuación de regresión muestral

Consiste en determinar los valores de "a" y " " a partir de la muestra, es decir, encontrar los valores de a y b con los datos observados de la muestra. El método de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:

Luego, la ecuación de regresión muestral estimada es

Que se interpreta como:

a es el estimador de 

Es el valor estimado de la variable Y cuando la variable X = 0

b es el estimador de  , es el coeficiente de regresión

Está expresado en las mismas unidades de Y por cada unidad de X. Indica el número de unidades en que varía Y cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresión).

Un valor negativo de b sería interpretado como la magnitud del decremento en Y por cada unidad de aumento en X.

Ejemplo:

Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observó el peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:

X

152

155

152

155

157

152

157

165

162

178

183

178

Y

50

61.5

54.5

57.5

63.5

59

61

72

66

72

84

82

Con estos datos vamos a plantear una ecuación de regresión simple que nos permita pronosticar los pesos conociendo las tallas. Utilizaremos  = 0.05, y contrastaremos nuestra hipótesis con la prueba F.

·                     Representación matemática y gráfica de los datos:

Representación Matemática

 

estatura

pesos

 

Regresión Lineal

 

I.C. para la media

I. C. individual

datos

x

y

x ^2

y ^2

xy

y est.

Residual

L. I.

L. S.

L. I.

L. S.

1

152

50

23104

2500

7600

56.43

-6.43

53.07

59.79

47.30

65.56

2

155

61.5

24025

3782.3

9532.5

59.03

2.47

56.09

61.97

50.05

68.02

3

152

54.5

23104

2970.3

8284

56.43

-1.93

53.07

59.79

47.30

65.56

4

155

57.5

24025

3306.3

8912.5

59.03

-1.53

56.09

61.97

50.05

68.02

5

157

63.5

24649

4032.3

9969.5

60.77

2.73

58.05

63.48

51.85

69.68

6

152

59

23104

3481

8968

56.43

2.57

53.07

59.79

47.30

65.56

7

157

61

24649

3721

9577

60.77

0.23

58.05

63.48

51.85

69.68

8

165

72

27225

5184

11880

67.71

4.29

65.17

70.24

58.85

76.57

9

162

66

26244

4356

10692

65.11

0.89

62.65

67.56

56.27

73.94

10

178

72

31684

5184

12816

78.99

-6.99

74.65

83.33

69.45

88.52

11

183

84

33489

7056

15372

83.32

0.68

78.01

88.64

73.31

93.34

12

178

82

31684

6724

14596

78.99

3.01

74.65

83.33

69.45

88.52

Representación Gráfica

HIPÓTESIS

HO: No hay relación entre la variable peso y la variable estatura.

HA: Hay relación entre la variable peso y la variable estatura.

Tabla de análisis de varianza

 

 

 

 

 

 

 

Fuente de

Grados de

 

Suma de

 

Cuadrados

 

 

 

Variación

libertad

 

cuadrados

 

medios

 

 

estadístico F

Debido a

 

 

 

 

 

 

 

 

la regresión

1

 

1061.1

 

1061.1

 

 

73.08

error

 

10

 

145.2

 

14.5

 

 

 

total

 

11

 

1206.3

 

 

 

 

 

Se obtiene un valor F = 73.08 > 4.96, con lo cual se rechaza la hipótesis nula y aceptamos que la variable estatura está relacionada con la variable peso con un 95% de confianza.

·                     De acuerdo al desarrollo matemático hemos obtenido los siguientes cálculos:

Lo que nos permite obtener los coeficientes a y b.

Luego,

b = 1223 / 1409.667 = 0.8676

a = 65.25 – (0.8676) (162.167) = -75.446

INTERPRETACIÓN

·                     La ecuación de regresión estimada es:

Coeficiente de correlación: R= 0.9379

Coeficiente de determinación: =0.8796

El valor de b = 0.8676 indica el incremento del peso en kilogramos, en promedio, por cada centímetro de aumento en la estatura de los hombres adultos.

El valor de a, no tiene interpretación práctica en el ejemplo, se interpretaría como el valor obtenido, en promedio, para el peso Y, cuando la estatura es 0.

Utilizando la ecuación de regresión para estimar o predecir valores de la variable Y: Para una talla de 180 se obtiene un peso de 80.7 kg.

¿Cuánto se espera que pese (en promedio) una persona que mide 1.60 m?

Sustituyendo el valor de interés en la ecuación:

Se obtiene:

CONCLUSIÓN

La ecuación de Regresión Lineal estimada para las variables estatura y peso muestran, de acuerdo a la prueba F, relación.

Esta relación se ha estimado en un R = 93.7, que indica una fuerte relación positiva.

Además si consideramos el coeficiente de determinación = 87.9 podemos indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían por las variaciones en la variable estatura.

 

 

 

 

 

 

 

 

Ejemplo de nuestra carrera:

Éste ejemplo ilustra una situación real de la empresa ESTIMAR LTDA donde se tienen los ingresos y costos obtenidos durante los últimos 18 meses y se analiza la relación existente entre ellos.
Para esto se hizo uso de la técnica de Regresión y Correlación, la cual resulta una herramienta muy útil a la hora de analizar el comportamiento de dos o más variables relacionadas.
Se pretende entonces establecer mediante una regresión la relación entre dichos datos al igual que calcular algunos pronósticos que puedan dar una idea de cómo será el comportamiento de los ingresos y costos en los próximos meses.

Objetivos
General:

Destacar la importancia y la utilidad de la Regresión y Correlación para modelar e investigar la relación entre dos variables.
Específicos:

·                     Aplicar la técnica de regresión a los ingresos, costos y utilidades obtenidos por la empresa ESTIMAR LTDA durante el año 2002 y los primeros seis meses del 2003.

·                     Construir el modelo matemático que más se ajuste a la serie de datos recolectados.

·                     Pronosticar los ingresos y costos de los seis meses siguientes de acuerdo al modelo matemático obtenido.

Marco Teórico

La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dada.
La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo cual es necesario realizar una selección adecuada de las variables que van a construir las ecuaciones de la regresión, ya que tomar variables que no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir ilógico.

Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre otras. Las ecuaciones de cada relación se presentan en la siguiente tabla.

Tabla 1. Ecuaciones de regresión

REGRESIÓN

ECUACIÓN

Lineal

y = A + Bx

Logarítmica

y = A + BLn(x)

Exponencial

y = Ae(Bx)

Cuadrática

y = A + Bx +Cx2

Sin embargo obtener el modelo de regresión no es suficiente para establecer la regresión, ya que es necesario evaluar que tan adecuado es el modelo de regresión obtenido. Para esto se hace uso del coeficiente de correlación R, el cual mide el grado de relación existente entre las variables. El valor de R varia entre -1 y 1, pero en la práctica se trabaja con el valor absoluto de R, entonces, a medida que R se aproxime a 1, más grande es el grado de correlación entre los datos, de acuerdo con esto el coeficiente de correlación se puede clasificar de varias formas, como se observa en la Tabla 2.

Tabla 2. Clasificación del grado de correlación.

CORRELACIÓN

VALOR O RANGO

Perfecta

|R| = 1

Excelente

0.9 <= |R| < 1

Buena

0.8 <= |R| < 0.9

Regular

0.5 <= |R| <0.8

Mala

|R|< 0.5

Por lo tanto el análisis de regresión es una herramienta estadística que permite analizar y predecir o estimar observaciones futuras de dos o más variables relacionadas entre sí, es decir una herramienta útil para la planeación.

Después de éste tratamiento superficial acerca de regresiones, se continua con un caso práctico relacionado con la empresa ESTIMAR LTDA.
A continuación se presentan los ingresos y costos en millones obtenidos mensualmente durante todo el año 2002 y los seis primeros meses del 2003.
Optamos por presentar éste caso ya que resulta muy práctico a la hora de aplicar la técnica de regresión. Además porque permite analizar como se han comportado los ingresos y costos de la empresa a partir del año 2002 y a su vez pronosticar según la tendencia arrojada, como será el comportamiento de los ingresos y costos para el resto del año 2003 y con base en ellos inferir o tomar decisiones a corto plazo.

Distribuciones Bivariantes
Es cuando sobre una población estudiamos simultáneamente los valores de dos variables estadísticas, el conjunto de los pares de valores correspondientes a cada individuo se denomina distribución bivariantes.

Ejemplo 1:
Las notas de 10 alumnos en Matemáticas y en Lengua vienen dadas en la siguiente tabla:

MATEMÁTICAS

2

4

5

5

6

6

7

7

8

9

LENGUA

2

2

5

6

5

7

5

8

7

10

Los pares de valores {(2,2),(4,2),(5,5),...;(8,7),(9,10)}, forman la distribución bivariante.

Regresion
La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dada.

1.                         Correlación

Es frecuente que estudiemos sobre una misma población los valores de dos variables estadísticas distintas, con el fin de ver si existe alguna relación entre ellas, es decir, si los cambios en una de ellas influyen en los valores de la otra. Si ocurre esto decimos que las variables están correlacionadas o bien que hay correlación entre ellas.

Medida De La Correlación
La
apreciación visual de la existencia de correlación no es suficiente. Usaremos un parámetro, llamado coeficiente de correlación que denotaremos con la letra r, que nos permite valorar si ésta es fuerte o débil, positiva o negativa.

El cálculo es una tarea mecánica, que podemos realizar con una calculadora o un programa informático. Nuestro interés está en saber interpretarlo

destacaremos una de sus propiedades

-1 < r < 1

Correlación Lineal Y Recta De Regresión
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La recta se denomina recta de regresión.

Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una recta y será cada vez más débil (o menos fuerte) cuando la nube vaya desparramándose con respecto a la recta.
En el gráfico observamos que en nuestro ejemplo la correlación es bastante fuerte, ya que la recta que hemos dibujado está próxima a los puntos de la nube.

Cuando la recta es creciente la correlación es positiva o directa: al aumentar una variable, la otra tiene también tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlación es negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir.

Ejemplo 2:
Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la gráfica se describen el nº de errores que corresponden a los intentos realizados.
Observa que hay una correlación muy fuerte (los puntos están "casi" alineados) y negativa (la recta es decreciente).

Diagrama De Dispersión
La primera forma de describir una distribución bivariante es representar los pares de valores en el plano cartesiano. El gráfico obtenido recibe el nombre de nube de puntos o diagrama de dispersión.

Un diagrama de dispersión es una representación gráfica de la relación entre dos variables, muy utilizada en las fases de Comprobación de teorías e identificación de causas raíz y en el Diseño de soluciones y mantenimiento de los resultados obtenidos. Tres conceptos especialmente destacables son que el descubrimiento de las verdaderas relaciones de causa-efecto es la clave de la resolución eficaz de un problema, que las relaciones de causa-efecto casi siempre muestran variaciones, y que es más fácil ver la relación en un diagrama de dispersión que en una simple tabla de números

Linea De Tendencia
La línea de tendencia es la herramienta básica más importante con la que cuenta el analista técnico.
Es una línea o conjunto de líneas que se trazan en el gráfico uniendo  con una misma pendiente series sucesivas de puntos mínimos (línea  de tendencia alcista) o de puntos máximos (línea de tendencia bajista).
Sirve para determinar en primer lugar la dirección del mercado y establecer sus objetivos de  proyección.
Marca los niveles de soporte o de resistencia que están proyectando los precios.
Permite analizar en cada momento el nivel de Beneficio/Riesgo que se puede tomar al iniciar o cerrar una posición, tomando como referencia el precio actual respecto a línea de tendencia y su proyección.
La ruptura de una línea  de tendencia al alza o la baja es una de las señales que confirma un cambio en la dirección de los precios.
Son la base para trazar los canales que encuadran el posible movimiento de los precios.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano, pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre otras.

Modelo Matematico

Llamado tambien ajuste de curvas es una ecuacion dada en un grafico, dependiendo del grado de correlacion que mas se ajuste al conjunto de datos.

·                     AJUSTE LINEAL: Y=BX+A

·                     AJUSTE LOGARITMICO: Y=B Ln X+A

·                     AJUSTE EXPONENCIAL: Y=AC BX

·                     AJUSTE PARABOLICO, CUADRATICO O POLINOMIAL: Y= AX2 + BX + A

Estimativos
Es una valoracion aproximada basado en datos de periodos anteriores (datos historicos o estadisticos) a traves de muestreos.

Pronósticos
Es estimar un valor de y dado o supesto un valor de x. Tambien se puede decir que es preveer el futuro.
Enuncie Los Pasos Para Ajustar Un Conjunto De Datos Y Crear Un Conjunto Su Modelo Matematico
Tener tabulado un conjunto de datos Xi, Yi cuyas variables tengan relación

·                     Utilidades Vs Costos

·                     Costos Vs Cantidad Producida

·                     Utilidades Vs Mes

·                     Costos Vs Semanas

·                     Ingresos Vs Año

Graficar los datos Xi, Yi (Diagrama de dispersion o nube de puntos). Esto permite visualizar la linea de tendencia.
Contruya el modelo matematico que mas se ajuste teniendo en cuenta el grado de correlacion.

·                     Perfecta [r]=1

·                     Excelente 0.9 <=[r]<=1

·                     Regular 0.5<=[r]<0.8

·                     Mala [r]<0.5

Series Cronológicas

Una SERIE cronológica es un conjunto de observaciones (ordenado en términos de tiempo). Algunos ejemplos de series cronológicas serian aspectos tales registros de precipitación pluvial diaria, las ventas semanales, el producto nacional bruto trimestral, mediciones de la temperatura.

El objeto de analizar tales datos es determinar si se presentan ciertos patrones o pautas no aleatorias. Algunas veces se trata de descubrir patrones no aleatorios que se puedan utilizar para predecir el futuro.
En otras coacciones, el objetivo es asegurarse de que no haya patrones no aleatorios. En estos casos, dichos patrones son considerados como una señal de que un sistema o proceso esta " fuera de control".
La siguiente explicación tiene relación con el análisis intrínseco, el cual se concentra en los datos históricos de la variable de estudio. Cabria destacar que el análisis intrínseco es ampliamente empleado en los negocios y en l a industria. El objetivo reconocido del análisis intrínseco es describir mas que explicar los patrones históricos de los datos (es decir, identificar diversos patrones). Además el supuesto en el que se basa el análisis intrínseco, estable que existe un constante sistema causal relacionado con el tiempo, el cual influye en los datos. En otras palabras, los datos históricos supuestamente reflejan l a influencia de todos los factores de manera uniforme a través del tiempo. Por ejemplo, un estudio de ventas realizadas en un periodo de 14 años puede revelar que las ventas han aumentado de manera uniforme a razón de casi 10% anual. Con base en esto se lleva a cabo una proyección de las ventas futuras, suponiendo que cualesquiera que fuesen las fuerzas que hayan dado lugar a este patrón, continuaran en le futuro.

Números Índices

Un número índice mide qué tanto una variable ha cambiado con el tiempo.
Mide la variación relativa entre las variables económicas: Variaciones en los precios, en los salarios, en los ingresos, etc.
Se calculan para 2 períodos de una serie de tiempo o para todos los períodos de una serie de tiempo con respecto a un período fijo llamado período base.
Que importancia tienen estas temáticas para cualquier ciencia.
La Estadística es de gran importancia en las diferentes empresas, enfocadas desde cualquier área profesional ya que ayudan a lograr una adecuada plantación y control apoyados en los estudios de pronósticos, presupuestos etc.

·                     Motivan a la alta gerencia para que definan los objetivos básicos de la empresa.

·                     Propician que se defina una estructura adecuada, determinando la responsabilidad y autoridad de cada una de las partes que integran la organización.

·                     Incrementan la participación de los diferentes niveles de la organización, cuando existe motivación adecuada.

·                     Obligan a mantener un archivo de datos históricos controlables.

·                     Facilitan a la administración la utilización óptima de los diferentes insumos.

·                     Facilitan la coparticipación e integración de las diferentes áreas de la compañía.

·                     Obligan a realizar un autoanalisis periódico.

·                     Facilitan el control administrativo.

·                     Son un reto que constantemente presenta a los ejecutivos de una organización para ejercitar su creatividad y criterio profesional a fin del mejoramiento de la empresa.

·                     Ayudan a lograr una mayor efectividad y eficiencia en las operaciones.

Pronosticación

La importancia para el contador (a) de la realización de pronósticos radica en:

·                     Para prevenir los cambios del entorno, de manera que anticipándose a ellos sea más fácil la adaptación de las organizaciones.

·                     Para integrar los objetivos y decisiones de la organización.

·                     A través de los pronósticos, se pueden prever las perdidas en los resultados de los estados financieros futuros, y de esta manera se pueden tomar decisiones bien sea la reducción de costos y gastos, planear estrategias que ayuden al mejoramiento de la empresa, y que se cumpla con el objetivo de toda empresa que es obtener utilidades.

·                     Con base en análisis de rotación de inventarios se puede tomar la decisión de aumentar o sacar del mercado un producto.

En cuales áreas de su competencia profesional es útil aplicar este conocimiento.

·                     Economía

·                     Administración

·                     Psicología y las demás áreas afines (Ciencias exactas y ciencias Sociales)

·                     Medicina etc. Nosotras pensamos que estos temas de estadística son indispensables en cualquier área ya que a diario se presentan situaciones donde intervienen dos variables y es importante este conocimiento para la toma de decisiones.

Análisis De Resultados

Realizando un breve análisis de la EMPRESA ESTIMAR LTDA. Podemos observar la poca o nula estabilidad comercial , la cual tuvo mucha variabilidad en cada uno de los meses, donde podemos concluir que la empresa tuvo acogida por los clientes, si observamos los ingresos mensuales que fueron aumentando, sinembargo las utilidades fueron cada vez más decrecientes debido a la mala administración dada por los jefes de producción donde invirtieron mas de lo que realmente vendían. Esto a su vez, demuestra que en una situación como la que se presentó en el periodo del año 2002 y los seis primeros meses del año 2003, es más difícil lograr un punto de equilibrio; es decir, el esfuerzo en la inversión es mayor para compensar lo que se deja de ganar en el margen.

Como se puede observar en la tabla de números índices base fija, en el mes de junio de 2003 se hace demasiado notable la mala administración por parte de la empresa debido a que tenemos una variación en el costo del 250%, una variación en los ingresos del 125% y una variación de las utilidades de un déficit del 125%; lo cual no tiene sentido alguno en el desarrollo de las actividades de una empresa, donde el objetivo general de una empresa es obtener rentabilidad.

En la tabla de números índice en base móvil, observamos que el porcentaje de variación de costos y el de los ingresos respecto a la tabla en base fija van disminuyendo a medida que avanza el periodo, mientras que el porcentaje de variación en las utilidades en las dos tablas fueron muy diferentes, el la base móvil las utilidades estuvieron muy variables entre utilidad y perdida, en cambio en la base fija siempre se presento déficit en forma creciente a medida en que avanzaba el periodo.

Conclusiones del ejemplo:

Es de suma importancia que la empresa ESTIMAR LTDA. Realice una planeación de presupuesto con el fin de investigar sobre el comportamiento de los diferentes mercados, los cuales tienen incidencia directa sobre el producto, como también realizar el plan de necesidades de insumos el cual consiste en detectar los requerimientos de los diferentes recursos que intervienen en el proceso productivo de tal modo que se pueda hacer frente al plan de mercados.

Realizar el plan financiero que tiene como finalidad decidir como se resolvera el problema de liquidez y de financiamiento de la empresa, una vez que se haya pronosticado los ingresos y los desembolsos provenientes del plan de requerimientos de insumos.

Mediante un buen grado de correlación, podemos fácilmente hacer estimativos acerca de cómo se va a comportar una variable de interés (en nuestro caso los ingresos, costos y utilidades mensuales de la empresa ESTIMAR LTDA.) a través del tiempo.

Los ingresos de ESTIMAR LTDA. desde Enero de 2002, presentan una tendencia creciente y se ajustó aun modelo matemático polinomial con un grado de correlación excelente, R = 0.9627, mostrando una buena relación entre los datos manejados.

Se observa que ESTIMAR LTDA. es una empresa con una muy mala gestión administrativa, porque fueron mas altos los costos que los ingresos a pesar que estos estuvieron mas o menos por el mismo nivel afectando notablemente las utilidades en forma negativa; por tal motivo es necesario mantener en la empresa costos estándar actualizados, con el propósito de que facilite la elaboración del presupuesto de requisiciones de materia prima, mano de obra y de gastos de fabricación indirectos, ya que de otra forma, se determinarían en forma muy imprecisa

La mejor estrategia para que no suceda lo anterior estriba en tomar medidas prácticas para la reducción de costos, lo cual generara mayor margen y permitirá a la empresa mejorar su posición competitiva.

 

 

2) Modelo de regresión

El modelo de regresión lineal simple.

6.3.1 Formulación matemática del modelo.

El modelo de regresión más sencillo es el Modelo de Regresión Lineal Simple que estudia la relación lineal entre la variable respuesta (Y )y la variable regresora (X), a partir de una muestra {(xi,Yi)}i = 1n, que sigue el siguiente modelo:

Y  = a + a x + e    i = 1,2,...,n.
 i    0   1 i   i

(6.1)

Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial

Y = a01+ a1X  +e,

(6.2)

donde Yt = (y1,...
,yn), 1t = (1,...,1), Xt = (x1,...,xn), et = (e1,...,en).

Se supone que se verifican las siguientes hipótesis:

  1. La función de regresión es lineal,

m
(xi) = E (Y /xi) = a0 + a1xi, i = 1,...,n,

o, equivalentemente, E(ei) = 0, i = 1,...,n.

  1. La varianza es constante (homocedasticidad),

             2 V ar(Y /xi) = s ,  i =
1,...,n,

o, equivalentemente, V ar(ei) = s2, i = 1,...,n.

  1. La distribución es normal,

         (          2) Y/xi ~ N a0 +
a1xi,s  , i = 1,...,n,

o, equivalentemente, ei ~ N(   2)
 0,s, i = 1,...,n.

  1. Las observaciones Y i son independientes. Bajo las hipótesis de normalidad, esto equivale a que la Cov(Y i,Y j) = 0, si i/=j.

Esta hipótesis en función de los errores sería “los ei son independientes”, que bajo normalidad, equivale a que Cov(ei;ej) = 0, si i/=j.

3) Estimación de Parámetros

Estimación de los parámetros del modelo.

En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión, a0 y a1; y la varianza de la distribución normal, s2.

El cálculo de estimadores para estos parámetros puede hacerse por diferentes métodos, siendo los más utilizados el método de máxima verosimilitud y el método de mínimos cuadrados.

Método de máxima verosimilitud.

Conocida una muestra de tamaño n, {(xi,yi) : i = 1,...,n}, de la hipótesis de normalidad se sigue que la densidad  condicionada en  yi  es

                   ( 2) f (yi/xi)
=  V~ -1-exp  - 1(yi--(a0-+2-a1xi))-  ,  i = 1,...,n,
           2ps2        2       s

y, por tanto, la función de densidad conjunta de la muestra es,

  (          )   n            n (
) f  Y/a  a ,s2 =  prod  f (y /x ) =  prod V~ -1-exp  - -1-(y - a
- a x )2 .
       0, 1      i=1   i  i   i=1  2ps2       2s2  i   0   1 i

Una vez tomada la muestra y, por tanto, que se conocen los valores de {(xi,yi)}i = 1n, se define la función de verosimilitud asociada a la muestra como sigue

 (      2)   n prod   --1---   (
-1-              2) l a0,a1,s   =     V~ 2ps2-exp -2s2 (yi -a0 -
a1xi)  ,
             i=1

(6.3)

esta función (con variables a0, a1 y s2) mide la verosimilitud de los posibles valores de estas variables en base a la muestra recogida.

El método de máxima verosimilitud se basa en calcular los valores de a0, a1 y s2 que maximizan la función (9.3) y, por tanto, hacen máxima la probabilidad de ocurrencia de la muestra obtenida. Por ser la función de verosimilitud una función creciente, el problema es más sencillo si se toman logaritmos y se maximiza la función resultante, denominada función soporte,

 

  (        )         (        )
L  a0,a1,s2   =   ln l a0,a1,s2  =
                                  (   )       n
                  - n-ln (2p) - n-ln s2  -  -1- sum  (y - (a  + a x ))2.   (1.4)
                    2         2           2s2i=1  i     0   1 i

 

Maximizando la anterior se obtienen los siguientes estimadores máximo verosímiles,

a^0,MV = y - ^a1,MV x

a^    =  sXY--
  1,MV    s2x

  2    1- sum n 2 s^MV = n    (yi-
(a^0,MV + ^a1,MV xi))
         i=1

donde se ha denotado xe ya las medias muestrales de X e Y, respectivamente;  sx2 es la varianza muestral de X  y sXY  es la covarianza muestral entre X e Y.

Método de mínimos cuadrados.

A partir de los estimadores: ^a0 y ^a1, se pueden calcular las predicciones para las observaciones muestrales, dadas por,

^ Yi = ^a0 +a^1xi,   i = 1,2,...
,n,

o, en forma matricial,

 ^ Y  = ^a01+ ^a1X,

donde ^Yt = (^y1,y^2,...,^yn). Ahora se definen los residuos como

 

ei

= yi -^y i, i = 1,2,...,n,

Residuo 

=  Valor observado  -Valor previsto,

en forma matricial,

e = Y - Y^,  con  et = (e ,...,e
).
                      1      n

Los estimadores por mínimos cuadrados se obtienen minimizando la suma de los cuadrados de los residuos, ésto es, minimizando la siguiente función,

           n      n             n
Y (a0,a1) =  sum  e2 =  sum  (yi- ^yi)2 =  sum  (yi- (a0 +
a1xi))2,
          i=1 i   i=1           i=1

(6.4)

derivando e igualando a cero se obtienen las siguientes ecuaciones, denominadas ecuaciones canónicas,

{   sum sum            }
     ni=1(yi- (a0 + a1xi))   =   ni=1ei   = 0
   sum n  (yi- (a0 + a1xi))xi =  sum n  eixi  = 0   ==>
    i=1                        i=1

{   sum n sum n       }
    sum  i=1yi  =      sum ^a0n+ a^1  i=1 sum  xi      ==>
     ni=1xiyi  =   ^a0  ni=1xi + ^a1  ni=1x2i

(6.5)

{                    }
   y   =    ^a0 + ^a1x
   ---            -2
   xy  =   ^a0x+ a^1x

De donde se deducen los siguientes estimadores mínimo cuadráticos de los parámetros de la recta de regresión

^a0,mc = y - ^a1,mc x

       sXY- ^a1,mc =  s2x .

Se observa que los estimadores por máxima verosimilitud y los estimadores mínimo cuadráticos de a0 y a1 son iguales. Esto es debido a la hipótesis de normalidad y, en adelante, se denota ^a0 = ^a0,MV = ^a0,mc y ^a1 = ^a1,MV = ^a1,mc.

Estimación de parámetros

En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,...) pero no los parámetros. Para calcularlos necesitaríamos tener todos los posibles valores de la variable, lo que no suele ser posible.
La inferencia estadística trata de cómo obtener información (inferir) sobre los parámetros a partir de subconjuntos de valores (muestras) de la variable.

Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para calcularla.
Estimación: Proceso por el que se trata de averiguar un parámetro de la población representado, en general, por q a partir del valor de un estadístico llamado estimador y representado por
El problema se resuelve en base al conocimiento de la "distribución muestral" del estadístico que se use.
¿Qué es esto? Concretemos, p.e. en la media (m). Si para cada muestra posible calculamos la media muestral () obtenemos un valor distinto ( es un estadístico: es una variable aleatoria y sólo depende de la muestra), habrá por tanto una fpd para , llamada distribución muestral de medias. La desviación típica de esta distribución se denomina error típico de la media. Evidentemente, habrá una distribución muestral para cada estadístico, no sólo para la media, y en consecuencia un error típico para cada estadístico.
Si la distribución muestral de un estadístico estuviera relacionada con algún parámetro de interés, ese estadístico podría ser un estimador del parámetro

 

4) Varianza de la regresión en la muestra

Análisis de la varianza de la regresión

Es un modo alternativo de hacer contrastes sobre el coeficiente 1. Consiste en descomponer la variación de la variable Y de dos componentes: uno la variación de Y alrededor de los valores predichos por la regresión y otro con la variación de los valores predichos alrededor de la media. Si no existe correlación ambos estimadores estimarían la varianza de Y y si la hay, no. Comparando ambos estimadores con la prueba de la F se contrasta la existencia de correlación. Para el ejemplo 3

Observese que el valor de p es igual que antes (son contrastes equivalentes) y el valor de F es el cuadrado del de t.

Ejemplo 4: Se quiere investigar el efecto de la ingestión masiva de vitamina C sobre el hígado de las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le administra y al otro no. Se sacrifica a los animales y se mide la concentración de lípidos en el hígado.

Grupo control (=0)

Tratado (=1)

23,8

13,8

15,4

9,3

21,7

17,2

18,0

15,1

¿Hay diferencia entre ambos grupos?

Se podría plantear un contraste sobre medias con la t de Student.


También se puede plantear un modelo de regresión entre la variable grupo (X=0 control y X=1 tratado) y la variable lípido (Y)

5) Inferencias acerca de los coeficientes de regresión de la población:

 

Coeficientes De Regresión

Coeficiente de variación

Hemos visto que las medidas de centralización y dispersión nos dan información sobre una muestra. Nos podemos preguntar si tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo, si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes de dos circos diferentes, nos dará información útil.

¿Pero qué ocurre si lo que comparamos es la altura de unos elefantes con respecto a su peso? Tanto la media como la desviación típica, y , se expresan en las mismas unidades que la variable. Por ejemplo, en la variable altura podemos usar como unidad de longitud el metro y en la variable peso, el kilogramo. Comparar una desviación (con respecto a la media) medida en metros con otra en kilogramos no tiene ningún sentido.

El problema no deriva sólo de que una de las medidas sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas unidades. Este es el caso en que comparamos el peso en toneladas de una población de 100 elefantes con el correspondiente en miligramos de una población de 50 hormigas.

El problema no se resuelve tomando las mismas escalas para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas con las mismas unidades que los elefantes (toneladas). Si la ingeriería genética no nos sorprende con alguna barbaridad, lo lógico es que la dispersión de la variable peso de las hormigas sea practicamente nula (¡Aunque haya algunas que sean 1.000 veces mayores que otras!)

En los dos primeros casos mencionados anteriormente, el problema viene de la dimensionalidad de las variables, y en el tercero de la diferencia enorme entre las medias de ambas poblaciones. El coeficiente de variación es lo que nos permite evitar estos problemas, pues elimina la dimensionalidad de las variables y tiene en cuenta la proporción existente entre medias y desviación típica. Se define del siguiente modo:

Basta dar una rápida mirada a la definición del coeficiente de variación, para ver que las siguientes consideraciones deben ser tenidas en cuenta:

Sólo se debe calcular para variables con todos los valores positivos. Todo índice de variabilidad es esencialmente no negativo. Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser siempre positiva. De ahí que sólo debemos trabajar con variables positivas, para la que tenemos con seguridad que . No es invariante ante cambios de origen. Es decir, si a los resultados de una medida le sumamos una cantidad positiva, b>0, para tener Y=X+b, entonces , ya que la desviación típica no es sensible ante cambios de origen, pero si la media. Lo contario ocurre si restamos (b<0).

 

6) Predicción y Pronosticación:

Las predicciones estadísticas, difícilmente hacen referencia a sucesos concretos, pero describen con considerable precisión en el comportamiento global de grandes conjuntos de sucesos particulares. Son predicciones que, en general, no acostumbran resultar útiles.

Para saber quien, de entre los miembros de una población importante, va a encontrar trabajo o a quedarse sin él; o en cuales miembros va a verse aumentada o disminuida una familia concreto en los próximos meses. Pero que, en cambio puede proporcionar estimaciones fiables del próximo aumento o disminución de la taza de desempleo referido al conjunto de la población; o de la posible variación de os índices de natalidad o mortalidad.

 

7) Análisis de Correlación

A fin de facilitar la comprensión del presente apartado se define algunos conceptos básicos:

Análisis de Correlación .- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.
El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.
Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es "Y"
Variable Independiente.- es la variable que proporciona las bases para el calculo. Cuya representación es: X1,X2,X3.......
Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos variables.
El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables.
Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las estimaciones.
Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.
Ecuación de regresión Lineal: Y’ = a + Bx
Ecuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...
Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de "Y" y los valores pronosticados "Y".
Análisis de regresión y Correlación Múltiple.- consiste en estimar una variable dependiente, utilizando dos o más variables independientes.

Ecuación de regresión Múltiple.- La forma general de la ecuación de regresión múltiple con dos variables independientes es:

Y' = a + b1X1 + b2X2

X1,X2 : Variables Independientes

a : es la ordenada del punto de intersección con el eje Y.
b1 : Coeficiente de Regresión (es la variación neta en Y por cada unidad de

variación en X1.).
b2 : Coeficiente de Regresión (es el cambio neto en Y para cada cambio

unitario en X2).

Prueba Global.- esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión neta iguales a 0.

Desarrollo de un Caso.

Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. Realice los análisis respectivos.

 

Y

X1

X2

AÑO

VENTAS

GASTOS DE PUBLICIDAD

COMISIONES DE VENDEDORES

2000

264000

550

15840

2001

384000

590

19250

2002

400200

680

26013

2003

422400

700

16896

2004

543000

750

16290

1.            ANÁLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad

2.            2.- Comisión de vendedores

3.            Variable dependiente:
- Ventas

Utilizando el Excel obtenemos los siguientes datos.

Estadísticas de la Regresión

Coeficiente de correlación múltiple

0.92092

Coeficiente de determinación R2

0.84810

R2 ajustado

0.69619

Error típico

54887.83156

Observaciones

5

4        De aquí se puede decir:

- De acuerdo al valor del coeficiente de correlación múltiple, podemos afirmar que la variable X1 (Gastos de Publicidad) y X2 (Comisión de vendedores) se encuentran asociadas en forma directa de una manera muy fuerte con la variable dependiente Ventas, en un 92%.
- De acuerdo al Coeficiente de determinaciión R2, podemos decir que el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las comisiones de los vendedores.

A N Á L I S I S D E V A R I A N Z A

 

Grados de libertad

Suma de cuadrados

Prom. de los cuadrados

F

Valor crítico de F

Regresión

2

33640459893

16820229947

5.5832

0.15190282

Residuos

2

6025348107

3012674053

 

 

Total

4

39665808000

 

 

 

4.             

 

Coeficientes

Error típico

Estadístico t

Probab.

Inf. 95%

Sup. 95%

Inferior 95.0%

Sup. 95.0%

Intercepción

-289315.16

242459.39

-1.193

0.35513

-1332534.446

753904.118

-1332534.446

753904.118

GSTOS DE PUBLICID.

1123.49

336.22

3.342

0.07908

-323.1275965

2570.108

-323.128

2570.108

COM. DE VENDED.

-2.27

6.55

-0.346

0.76245

-30.45400257

25.922

-30.454

25.922

5.           
De aquí se desprende la ecuación de regresión múltiple:

Y = - 289315 + 1123 X1 - 2.27 X2

6.           
Prueba Global: Verificación de la validez del modelo de regresión Múltiple.
Formulación de Hipótesis:
Hp: B1 = B2 = 0
Ha: B1 B2 0

7.            Si se acepta la hipótesis planteada, significa que ninguno de los factores (X1,X2) son relevantes para explicar los cambios en Y.
De acuerdo a la tabla de análisis de la varianza F calculado es 5.58 y el p-valor es 0.15, de lo cual podemos decir que La hipótesis planteada se rechaza y se acepta la hipótesis alternativa, por que el F calculado es mayor que el p-valor.
Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los coeficientes de regresión, no son iguales a cero y, por o tanto son útiles para las predicciones. El siguiente paso consiste en probar individualmente las variables para determinar cuales coeficientes de regresión pueden ser cero y cuales no.
Del análisis mediante Excell tenemos el siguiente cuadro.

VENTAS VS GASTOS DE PUBLICIDAD

Estadísticas de la regresión

Coeficiente de correlación múltiple

0.915976333

Coeficiente de determinación R^2

0.839012642

R^2 ajustado

0.785350189

Error típico

46136.36902

Observaciones

5

8.             

A N Á L I S I S D E V A R I A N Z A

 

GL

Suma de cuadrados

Prom. de los cuadr.

F

p-Valor

Regresión

1

33280114360

33280114360

15.6350

0.028865932

Residuos

3

6385693640

2128564547

 

 

Total

4

39665808000

 

 

 

9.             

 

Coeficientes

Error típico

Estadíst. t

Probab.

Inf. 95%

Sup. 95%

Inf. 95%

Sup. 95%

Intercepción

-324444.428

185054.64

-1.7532

0.1778

-913371.43

264482.58

-913371.43

264482.58

GASTOS DE PUBLICIDAD

1111.8722

281.19389

3.9541

0.0289

216.9869

2006.7575

216.9869

2006.7575

10.       
VENTAS VS COMISIÓN DE VENDEDORES

Estadísticas de la regresión

Coeficiente de correlación múltiple

0.003317293

Coeficiente de determinación R^2

1.10044E-05

R^2 ajustado

-0.333318661

Error típico

114986.0448

Observaciones

5

11.         

ANÁLISIS DE VARIANZA

 

GL

Suma de cuadrados

Prom. de los cuadrados

F

Valor crítico de F

Regresión

1

436499.6307

436499.6307

3.30137E-05

0.9957763

Residuos

3

39665371500

13221790500

 

 

Total

4

39665808000

 

 

 

12.         

 

Coeficientes

Error típico

Estadíst. t

Probabilidad

Inferior 95%

Superior 95%

Inferior 95.0%

Superior 95.0%

Intercepción

404199.6521

262605.1563

1.539191605

0.22138434

-431527.9414

1239927.246

-431527.9414

1239927.246

COM. DE VENDEDORES

-0.07846366

13.65594537

-0.00574575

0.9957763

-43.53781731

43.38088999

-43.53781731

43.38088999

13.       
De acuerdo a los cuadros podemos decir:
- La variable que mas relación tiene con llas Variable Dependiente es decir las ventas

14.        es la variable Gastos de Publicidad ya que su R2 "Coeficiente de determinación" es

15.        79%.
- En cuanto a la variable Comisiones de veendedores podemos decir que no tiene

16.        relación relevante con las Ventas ya que su Coeficiente de determinación es casi

17.        nulo 0.001% .

 

8) Coeficiente de correlación de la población y de la muestra:

Coeficiente de correlación de Pearson

El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.

El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables:

r=\frac{\sigma_{XY}}{\sigma_{X}\cdot \sigma_{Y}}

Siendo:

σXY la covarianza de (X,Y)

σX y σY las desviaciones típicas de las distribuciones marginales.


El valor del índice de correlación varía en el intervalo [-1 , +1]:

  • Si r = 0, no existe ninguna correlación. El índice indica, por tanto, una independencia total entre las dos variables, es decir, que la variación de una de ellas no influye en absoluto en el valor que pueda tomar la otra.
  • Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en idéntica proporción.
  • Si 0 < r < 1, existe una correlación positiva.
  • Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en idéntica proporción.
  • Si -1 < r < 0, existe una correlación negativa.


Se dice que una correlación es significativa si la misma se encuentra entre [-1 ; -0,7] o [1 ; 0,7]

Coeficiente de correlación de Spearman

El Coeficiente de correlación de Spearman, ρ (rho), es una prueba no paramétrica que mide la asociación o interdependencia entre dos variables discretas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.

El estadístico ρ viene dado por la expresión:

 \rho = 1- {\frac {6 \sum D^2}{N(N^2 - 1)}}

donde D es la diferencia entre los correspondientes valores de x - y. N es el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente aproximación a la distribución t de Student

t = \frac{\rho}{\sqrt{(1-\rho^2)/(n-2)}}


La interpretación de coeficiente de Spearman es igual que la del coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero, significa no correlación pero no independencia. La tau de Kendall es un coeficiente de correlación por rangos, inversiones entre dos ordenaciones de una distribución normal bivariante.

Ejemplo

Los datos brutos usados en este ejemplo se ven debajo.

CI

Horas de TV a la semana

106

7

86

0

100

28

100

50

99

28

103

28

97

20

113

12

113

7

110

17

El primer paso es ordenar los datos de la primera columna. Después, se crean dos columnas más. Ambas son para ordenar (establecer un lugar en la lista) de las dos primeras columnas. Después se crea una columna "d" que muestra las diferencias entre las dos columnas de orden. Finalmente, se crea otra columna "d2". Esta última es sólo la columna d al cuadrado.

Después de realizar todo esto con los datos del ejemplo, se debería acabar con algo como lo siguiente:

 

CI (i)

Horas de TV a la semana (t)

orden(i)

orden(t)

d

d2

86

0

1

1

0

0

97

20

2

6

4

16

99

28

3

8

5

25

100

50

4.5

10

5.5

30.25

100

28

4.5

8

3.5

12.25

103

28

6

8

2

4

106

7

7

2.5

4.5

20.25

110

17

8

5

3

9

113

7

9.5

2.5

7

49

113

12

9.5

4

5.5

30.25

Nótese como el número de orden de los valores que son idénticos es la media de los números de orden que les corresponderían si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar \sum d_i^2 = 196. El valor de n es 10. Así que esos valores pueden ser sustituídos en la fórmula.

 \rho = 1- {\frac {6\times196}{10(10^2 - 1)}}

De lo que resulta ρ = − 0.187878787879.

Determinando la significación estadística

La aproximación moderna al problema de averiguar si un valor observado de ρ es significativamente diferente de cero (siempre tendremos 1 ≥ ρ ≥ −1) es calcular la probabilidad de que fuera mayor o igual que el ρ observado, dada la hipótesis nula, utilizando un permutation test. Esta aproximación es casi siempre superior a los métodos tradicionales, a no ser que el data set sea tan grande que la potencia informática no sea suficiente para generar permutaciones (poco probable con la informática moderna), o a no ser que sea difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen dificultad).

Aunque el test de permutación es a menudo trivial para cualquiera con recursos informáticos y experiencia en programación, todavía se usan ampliamente los métodos tradicionales para obtener significación. La aproximación más básica es comparar el ρ observado con tablas publicadas para varios niveles de significación. Es una solución simple si la significación sólo necesita saberse dentro de cierto rango, o ser menor de un determinado valor, mientras haya tablas disponibles que especifiquen los rangos adecuados. Más abajo hay una referencia a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente intensivo y a lo largo de los años se han usado complicados trucos matemáticos para generar tablas para tamaños de muestra cada vez mayores, de modo que no es práctico para la mayoría extender las tablas existentes.

Una aproximación alternativa para tamaños de muestra suficientemente grandes es una aproximación a la distribución t de Student. Para tamaños de muestra más grandes que unos 20 individuos, la variable

t = \frac{\rho}{\sqrt{(1-\rho^2)/(n-2)}}

tiene una distribución t de Student en el caso nulo (correlación cero). En el caso no nulo (ej: para averiguar si un ρ observado es significativamente diferente a un valor teórico o si dos ρs observados difieren significativamente, los tests son mucho menos potentes, pero puede utilizarse de nuevo la distribución t.

Una generalización del coeficiente de Spearman es útil en la situación en la cual hay tres o más condiciones, varios individuos son observados en cada una de ellas, y predecimos que las observaciones tendrán un orden en particular. Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para intentar cierta tarea, y predecimos que su habilidad mejorará de intento en intento. Un test de la significación de la tendecia entre las condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test para alternativas ordenadas.

 

 

 

 

 

 

 

 

 

Bibliografía

MONTGOMERY Douglas C., RUNGER George C., Probabilidad y Estadística Aplicadas a la Ingeniería, Ed. McGraw Hill, 1996, Capítulo 9.

AULAFACIL.COM, Curso de Estadística, Capítulos 12 y 13, 2003.

RAMÍREZ, D. (2004). CONTABILIDAD ADMINISTRATIVA.  Adisson Wesley Iberoamericana.

LIND, Douglas y MARCHAL, William y MASON, Robert. Estadística para administración y economia. Alfaomega. Colombia 11ava edición. 2004 Cap.13 y 14.


CORDOVA, Jorge Herramientas Estadísticas para la Gestión en Salud. JC ediciones. Versión electrónica (formato CD) Mayo 2003.


HILDEBRAND, David y OTT, Lyman. Estadística Aplicada a la administración y a la economia. Adisson Wesley Iberoamericana sa. 1997. Cap. 13,14 y 15.


http://math.uprm.edu/~edgar/cap1sl.ppt#273,21,1.3.2  El análisis de varianza para regresión lineal simple

http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml

http://www.monografias.com/trabajos14/estadistica/estadistica.shtml

http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf

http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.asp

http://www.udc.es/dep/mate/estadistica2/sec6_3.html

http://www.hrc.es/bioest/Introducion_est.html

http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson

http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman

 

 

 

 

 

 

Hosted by www.Geocities.ws

1