República Bolivariana de Venezuela
Ministerio
de Educación Superior
Universidad
Yacambú
Vicerrectorado
estudios a distancia
Estadística
Inferencial
T11
Realizado
por:
Gustavo
Jaime
CI Nº
11962050
Barquisimeto;
Noviembre 2007
INTRODUCCIÓN
En muchas situaciones de la vida real, se presentan problemas
en los cuales existe una relación entre dos o más variables
y se hace necesario encontrar la naturaleza
de esta relación.
Es conocido que existe una relación entre una variable denominada dependiente y
otras denominadas independientes (como por ejemplo las existentes entre: la
experiencia profesional de los trabajadores y sus respectivos sueldos, las
estaturas y pesos de personas, la producción
agraria y la cantidad de fertilizantes utilizados, etc.), puede darse el
problema de que la dependiente asuma múltiples valores
para una combinación de valores de las independientes.
La dependencia a la que se hace referencia es relacional matemática
y no necesariamente de causalidad. Así, para un mismo número de unidades
producidas, pueden existir niveles de costo,
que varían empresa
a empresa. Si se da ese tipo de relaciones, se suele recurrir a los estudios de
regresión en los cuales se obtiene una nueva relación pero de un tipo especial
denominado función,
en la cual la variable independiente se asocia con un indicador de tendencia
central de la variable dependiente. Cabe recordar que en términos generales,
una función es un tipo de relación en la cual para cada valor
de la variable independiente le corresponde uno y sólo un valor de la variable
dependiente.
1) Regresión Lineal Simple y Correlación
Se puede decir que Y
depende de X, en donde Y y X son dos variables
cualquiera en un modelo
de Regresión
Simple.
"Y es una función
de X"
Y = f(X)
Como Y depende de X,
Y es la variable
dependiente, y
X es la variable
independiente.
En el Modelo de
Regresión es muy importante identificar cuál es la variable dependiente y cuál
es la variable independiente.
En el Modelo de
Regresión Simple se establece que Y es una función de sólo una variable
independiente, razón por la cual se le denomina también Regresión Divariada
porque sólo hay dos variables, una dependiente y otra independiente y se
representa así:
Y = f (X)
"Y está regresando
por X"
La variable dependiente
es la variable que se desea explicar, predecir. También se le llama REGRESANDO
ó VARIABLE DE RESPUESTA.
La variable
Independiente X se le denomina VARIABLE EXPLICATIVA ó REGRESOR y se le utiliza
para EXPLICAR Y.
Análisis Estadístico:
Regresión Lineal Simple
En el estudio de la relación funcional entre dos variables poblacionales,
una variable X, llamada independiente, explicativa o de predicción y una
variable Y, llamada dependiente o variable respuesta, presenta la siguiente
notación:
Y = a + b X +
Donde:
a es el valor de la
ordenada donde la línea de regresión se intercepta con el eje Y.
b es el coeficiente de
regresión poblacional (pendiente de la línea recta)
es el error
Suposiciones de la
regresión lineal
1.
Los valores de la variable independiente X son fijos,
medidos sin error.
2.
La variable Y es aleatoria
3.
Para cada valor de X, existe una distribución
normal de valores de Y (subpoblaciones Y)
4.
Las variancias de las subpoblaciones
Y son todas iguales.
5.
Todas las medias de las subpoblaciones
de Y están sobre la recta.
6.
Los valores de Y están normalmente distribuidos y son
estadísticamente independientes.
Estimación de la
ecuación de regresión muestral
Consiste en determinar los valores
de "a" y " " a partir de la muestra,
es decir, encontrar los valores de a y b con los datos
observados de la muestra. El método
de estimación es el de Mínimos Cuadrados, mediante el cual se obtiene:
Luego, la ecuación de
regresión muestral estimada es
Que se interpreta como:
a es el estimador de
Es el valor estimado de
la variable Y cuando la variable X = 0
b es el estimador de
, es el coeficiente de regresión
Está expresado en las
mismas unidades de Y por cada unidad de X. Indica el número de unidades en que
varía Y cuando se produce un cambio,
en una unidad, en X (pendiente de la recta de regresión).
Un valor negativo de b
sería interpretado como la magnitud del decremento en Y por cada unidad de
aumento en X.
Los datos de la
siguiente tabla representan las estaturas (X, cm) y
los pesos (Y, kg) de una muestra de 12 hombres
adultos. Para cada estatura fijada previamente se observó el peso de una persona
seleccionada de entre el grupo
con dicha estatura, resultando:
|
X |
152 |
155 |
152 |
155 |
157 |
152 |
157 |
165 |
162 |
178 |
183 |
178 |
|
Y |
50 |
61.5 |
54.5 |
57.5 |
63.5 |
59 |
61 |
72 |
66 |
72 |
84 |
82 |
Con estos datos vamos a
plantear una ecuación de regresión simple que nos permita pronosticar los pesos
conociendo las tallas. Utilizaremos = 0.05, y contrastaremos nuestra hipótesis
con la prueba F.
·
Representación matemática y gráfica de los datos:
Representación
Matemática
|
|
estatura |
pesos |
|
Regresión Lineal |
|
I.C. para la media |
I. C. individual |
||||
|
datos |
x |
y |
x ^2 |
y ^2 |
xy |
y est. |
Residual |
L. I. |
L. S. |
L. I. |
L. S. |
|
1 |
152 |
50 |
23104 |
2500 |
7600 |
56.43 |
-6.43 |
53.07 |
59.79 |
47.30 |
65.56 |
|
2 |
155 |
61.5 |
24025 |
3782.3 |
9532.5 |
59.03 |
2.47 |
56.09 |
61.97 |
50.05 |
68.02 |
|
3 |
152 |
54.5 |
23104 |
2970.3 |
8284 |
56.43 |
-1.93 |
53.07 |
59.79 |
47.30 |
65.56 |
|
4 |
155 |
57.5 |
24025 |
3306.3 |
8912.5 |
59.03 |
-1.53 |
56.09 |
61.97 |
50.05 |
68.02 |
|
5 |
157 |
63.5 |
24649 |
4032.3 |
9969.5 |
60.77 |
2.73 |
58.05 |
63.48 |
51.85 |
69.68 |
|
6 |
152 |
59 |
23104 |
3481 |
8968 |
56.43 |
2.57 |
53.07 |
59.79 |
47.30 |
65.56 |
|
7 |
157 |
61 |
24649 |
3721 |
9577 |
60.77 |
0.23 |
58.05 |
63.48 |
51.85 |
69.68 |
|
8 |
165 |
72 |
27225 |
5184 |
11880 |
67.71 |
4.29 |
65.17 |
70.24 |
58.85 |
76.57 |
|
9 |
162 |
66 |
26244 |
4356 |
10692 |
65.11 |
0.89 |
62.65 |
67.56 |
56.27 |
73.94 |
|
10 |
178 |
72 |
31684 |
5184 |
12816 |
78.99 |
-6.99 |
74.65 |
83.33 |
69.45 |
88.52 |
|
11 |
183 |
84 |
33489 |
7056 |
15372 |
83.32 |
0.68 |
78.01 |
88.64 |
73.31 |
93.34 |
|
12 |
178 |
82 |
31684 |
6724 |
14596 |
78.99 |
3.01 |
74.65 |
83.33 |
69.45 |
88.52 |
Representación Gráfica
HIPÓTESIS
HO: No hay
relación entre la variable peso y la variable
estatura.
HA: Hay
relación entre la variable peso y la variable estatura.
|
Tabla de análisis
de varianza |
|
|
|
|
|
|
|
||
|
Fuente de |
Grados de |
|
Suma de |
|
Cuadrados |
|
|
|
|
|
Variación |
libertad |
|
cuadrados |
|
medios |
|
|
estadístico F |
|
|
Debido a |
|
|
|
|
|
|
|
|
|
|
la regresión |
1 |
|
1061.1 |
|
1061.1 |
|
|
73.08 |
|
|
error |
|
10 |
|
145.2 |
|
14.5 |
|
|
|
|
total |
|
11 |
|
1206.3 |
|
|
|
|
|
Se obtiene un valor F =
73.08 > 4.96, con lo cual se rechaza la hipótesis
nula y aceptamos que la variable estatura está relacionada con la variable peso
con un 95% de confianza.
·
De acuerdo al desarrollo
matemático hemos obtenido los siguientes cálculos:
Lo que nos permite
obtener los coeficientes a y b.
Luego,
b = 1223 / 1409.667 =
0.8676
a = 65.25 – (0.8676)
(162.167) = -75.446
·
La ecuación de regresión estimada es:
Coeficiente de
correlación: R= 0.9379
Coeficiente de
determinación: R²=0.8796
El valor de b = 0.8676
indica el incremento del peso en kilogramos, en promedio, por cada centímetro de
aumento en la estatura de los hombres adultos.
El valor de a, no tiene interpretación
práctica en el ejemplo, se interpretaría como el valor obtenido, en promedio, para
el peso Y, cuando la estatura es 0.
Utilizando la ecuación
de regresión para estimar o predecir valores de la variable Y: Para una talla
de 180 se obtiene un peso de
¿Cuánto se espera que
pese (en promedio) una persona que mide
Sustituyendo el valor de
interés
en la ecuación:
Se obtiene:
La ecuación de Regresión
Lineal estimada para las variables estatura y peso muestran, de
acuerdo a la prueba F, relación.
Esta relación se ha
estimado en un R = 93.7, que indica una fuerte relación positiva.
Además si consideramos
el coeficiente de determinación R² = 87.9 podemos
indicar que el 87.9% de las variaciones que ocurren en el peso se explicarían
por las variaciones en la variable estatura.
Ejemplo de nuestra carrera:
Éste ejemplo ilustra una situación real de la empresa
ESTIMAR LTDA donde se tienen los ingresos
y costos
obtenidos durante los últimos 18 meses y se analiza la relación existente entre
ellos.
Para esto se hizo uso de la técnica de Regresión y Correlación, la cual resulta
una herramienta muy útil a la hora de analizar el comportamiento
de dos o más variables relacionadas.
Se pretende entonces establecer mediante una regresión la relación entre dichos
datos
al igual que calcular algunos pronósticos
que puedan dar una idea de cómo será el comportamiento de los ingresos y costos
en los próximos meses.
Objetivos
General:
Destacar la importancia
y la utilidad
de
Específicos:
·
Aplicar la técnica de regresión a los ingresos, costos y
utilidades obtenidos por la empresa
ESTIMAR LTDA durante el año 2002 y los primeros seis meses del 2003.
·
Construir el modelo
matemático que más se ajuste a la serie de datos recolectados.
·
Pronosticar los ingresos y costos de los seis meses
siguientes de acuerdo al modelo matemático obtenido.
La regresión es una
técnica estadística
utilizada para simular la relación existente entre dos o más variables. Por lo
tanto se puede emplear para construir un modelo que permita predecir el
comportamiento de una variable dada.
La regresión es muy utilizada para interpretar situaciones reales, pero
comúnmente se hace de mala forma, por lo cual es necesario realizar una selección
adecuada de las variables que van a construir las ecuaciones
de la regresión, ya que tomar variables que no tengan relación en la práctica,
nos arrojará un modelo carente de sentido, es decir ilógico.
Según sea la dispersión
de los datos (nube de puntos) en el plano cartesiano, pueden darse alguna de
las siguientes relaciones, Lineal, Logarítmica, Exponencial, Cuadrática, entre
otras. Las ecuaciones de cada relación se presentan en la siguiente tabla.
Tabla 1. Ecuaciones de
regresión
|
REGRESIÓN |
ECUACIÓN |
|
Lineal |
y = A + Bx |
|
Logarítmica |
y = A + BLn(x) |
|
Exponencial |
y = Ae(Bx) |
|
Cuadrática |
y = A + Bx +Cx2 |
Sin embargo obtener el
modelo de regresión no es suficiente para establecer la regresión, ya que es
necesario evaluar que tan adecuado es el modelo de regresión obtenido. Para
esto se hace uso del coeficiente de correlación R, el cual mide el grado de
relación existente entre las variables. El valor
de R varia entre -1 y 1, pero en la práctica se trabaja con el valor absoluto
de R, entonces, a medida que R se aproxime a 1, más grande es el grado de
correlación entre los datos, de acuerdo con esto el coeficiente de correlación
se puede clasificar de varias formas, como se observa en
Tabla 2. Clasificación
del grado de correlación.
|
CORRELACIÓN |
VALOR O RANGO |
|
Perfecta |
|R| = 1 |
|
Excelente |
0.9 <= |R| < 1 |
|
Buena |
0.8 <= |R| < 0.9 |
|
Regular |
0.5 <= |R| <0.8 |
|
Mala |
|R|< 0.5 |
Por lo tanto el análisis
de regresión es una herramienta estadística que permite analizar y predecir o
estimar observaciones futuras de dos o más variables relacionadas entre sí, es
decir una herramienta útil para la planeación.
Después de éste
tratamiento superficial acerca de regresiones, se continua
con un caso práctico relacionado con la empresa ESTIMAR LTDA.
A continuación se presentan los ingresos y costos en millones obtenidos
mensualmente durante todo el año 2002 y los seis primeros meses del 2003.
Optamos por presentar éste caso ya que resulta muy práctico a la hora de
aplicar la técnica de regresión. Además porque permite analizar como se han
comportado los ingresos y costos de la empresa a partir del año 2002 y a su vez
pronosticar según la tendencia arrojada, como será el comportamiento de los
ingresos y costos para el resto del año 2003 y con base en ellos inferir o
tomar decisiones a corto plazo.
Distribuciones Bivariantes
Es cuando sobre una población
estudiamos simultáneamente los valores
de dos variables estadísticas,
el conjunto de los pares de valores
correspondientes a cada individuo se denomina distribución
bivariantes.
Ejemplo 1:
Las
notas de 10 alumnos en Matemáticas
y en Lengua
vienen dadas en la siguiente tabla:
|
MATEMÁTICAS |
2 |
4 |
5 |
5 |
6 |
6 |
7 |
7 |
8 |
9 |
|
LENGUA |
2 |
2 |
5 |
6 |
5 |
7 |
5 |
8 |
7 |
10 |
Los pares de valores
{(2,2),(4,2),(5,5),...;(8,7),(9,10)}, forman la
distribución bivariante.
Regresion
La regresión es una técnica estadística utilizada para simular la relación
existente entre dos o más variables. Por lo tanto se puede emplear para
construir un modelo que permita predecir el comportamiento de una variable
dada.
1.
Correlación
Es frecuente que
estudiemos sobre una misma población los valores de dos variables estadísticas
distintas, con el fin de ver si existe alguna relación entre ellas, es decir,
si los cambios en una de ellas influyen en los valores de la otra. Si ocurre
esto decimos que las variables están correlacionadas o bien que hay correlación
entre ellas.
Medida De
La
El cálculo
es una tarea mecánica,
que podemos realizar con una calculadora o un programa
informático. Nuestro interés
está en saber interpretarlo
destacaremos una de sus propiedades
-1 < r < 1
Correlación Lineal Y
Recta De Regresión
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan
cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se distribuyen
alrededor de una recta. Si así ocurre diremos que hay correlación lineal. La
recta se denomina recta de regresión.
Hablaremos de
correlación lineal fuerte cuando la nube se parezca mucho a una recta y será
cada vez más débil (o menos fuerte) cuando la nube vaya desparramándose con
respecto a la recta.
En el gráfico observamos que en nuestro ejemplo la correlación es bastante
fuerte, ya que la recta que hemos dibujado está próxima a los puntos de la
nube.
Cuando la recta es
creciente la correlación es positiva o directa: al aumentar una variable, la
otra tiene también tendencia a aumentar, como en el ejemplo anterior. Cuando la
recta es decreciente la correlación es negativa o inversa: al aumentar una
variable, la otra tiene tendencia a disminuir.
Ejemplo 2:
Una
persona
se entrena para obtener el carnet de conducir
repitiendo un test de 50 preguntas. En la gráfica se describen el nº
de errores que corresponden a los intentos realizados.
Observa que hay una correlación muy fuerte (los puntos están "casi"
alineados) y negativa (la recta es decreciente).
Diagrama De Dispersión
La primera forma de describir una distribución bivariante
es representar los pares de valores en el plano cartesiano. El gráfico obtenido
recibe el nombre de nube de puntos o diagrama
de dispersión.
Un diagrama de
dispersión es una representación gráfica de la relación entre dos variables,
muy utilizada en las fases de Comprobación de teorías
e identificación de causas raíz y en el Diseño
de soluciones
y mantenimiento
de los resultados obtenidos. Tres conceptos especialmente destacables son que
el descubrimiento de las verdaderas relaciones de causa-efecto es la clave de
la resolución eficaz de un problema, que las relaciones de causa-efecto casi
siempre muestran variaciones, y que es más fácil ver la relación en un diagrama
de dispersión que en una simple tabla de números
Linea De Tendencia
La línea de tendencia es la herramienta básica más importante con la que cuenta
el analista técnico.
Es una línea o conjunto de líneas que se trazan en el gráfico uniendo con
una misma pendiente series sucesivas de puntos mínimos (línea de
tendencia alcista) o de puntos máximos (línea de tendencia bajista).
Sirve para determinar en primer lugar la dirección
del mercado
y establecer sus objetivos
de proyección.
Marca
los niveles de soporte o de resistencia
que están proyectando los precios.
Permite analizar en cada momento el nivel de Beneficio/Riesgo
que se puede tomar al iniciar o cerrar una posición, tomando como referencia el
precio
actual respecto a línea de tendencia y su proyección.
La ruptura de una línea de tendencia al alza o la baja es una de las señales
que confirma un cambio
en la dirección de los precios.
Son la base para trazar los canales que encuadran el posible movimiento
de los precios.
Según sea la dispersión de los datos (nube de puntos) en el plano cartesiano,
pueden darse alguna de las siguientes relaciones, Lineal, Logarítmica,
Exponencial, Cuadrática, entre otras.
Modelo Matematico
Llamado tambien ajuste de curvas es una ecuacion
dada en un grafico, dependiendo del grado de correlacion
que mas se ajuste al conjunto de datos.
·
AJUSTE LINEAL: Y=BX+A
·
AJUSTE LOGARITMICO: Y=B Ln X+A
·
AJUSTE EXPONENCIAL: Y=AC BX
·
AJUSTE PARABOLICO, CUADRATICO O POLINOMIAL: Y= AX2
+ BX + A
Estimativos
Es una valoracion aproximada basado en datos de
periodos anteriores (datos historicos o estadisticos) a traves de muestreos.
Pronósticos
Es estimar un valor de y dado o supesto un valor de
x. Tambien se puede decir que es preveer
el futuro.
Enuncie Los Pasos Para Ajustar Un Conjunto De Datos Y Crear Un Conjunto Su
Modelo Matematico
Tener tabulado un conjunto de datos Xi, Yi cuyas variables tengan relación
·
Utilidades Vs Costos
·
Costos Vs Cantidad Producida
·
Utilidades Vs Mes
·
Costos Vs Semanas
·
Ingresos Vs Año
Graficar los datos Xi, Yi (Diagrama de dispersion o nube de puntos). Esto permite visualizar la linea de tendencia.
Contruya el modelo matematico
que mas se ajuste teniendo en cuenta el grado de correlacion.
·
Perfecta [r]=1
·
Excelente 0.9 <=[r]<=1
·
Regular 0.5<=[r]<0.8
·
Mala [r]<0.5
Series Cronológicas
Una SERIE cronológica es
un conjunto de observaciones (ordenado en términos de tiempo).
Algunos ejemplos de series cronológicas serian aspectos tales registros
de precipitación pluvial diaria, las ventas
semanales, el producto
nacional bruto trimestral, mediciones de la temperatura.
El objeto de analizar
tales datos es determinar si se presentan ciertos patrones o pautas no
aleatorias. Algunas veces se trata de descubrir patrones no aleatorios que se
puedan utilizar para predecir el futuro.
En otras coacciones, el objetivo
es asegurarse de que no haya patrones no aleatorios. En estos casos, dichos patrones
son considerados como una señal de que un sistema
o proceso
esta " fuera de control".
La siguiente explicación tiene relación con el análisis intrínseco, el
cual se concentra en los datos históricos de la variable de estudio. Cabria
destacar que el análisis intrínseco es ampliamente empleado en los negocios
y en l a industria.
El objetivo reconocido del análisis intrínseco es describir mas que explicar
los patrones históricos de los datos (es decir, identificar diversos
patrones). Además el supuesto en el que se basa el análisis intrínseco, estable
que existe un constante sistema causal relacionado con el tiempo, el cual
influye en los datos. En otras palabras, los datos históricos supuestamente
reflejan l a influencia de todos los factores de manera uniforme a través del
tiempo. Por ejemplo, un estudio de ventas realizadas en un periodo de 14 años
puede revelar que las ventas han aumentado de manera uniforme a razón de casi
10% anual. Con base en esto se lleva a cabo una proyección de las ventas
futuras, suponiendo que cualesquiera que fuesen las fuerzas que hayan dado
lugar a este patrón, continuaran en le futuro.
Números Índices
Un número índice mide
qué tanto una variable ha cambiado con el tiempo.
Mide la variación relativa entre las variables económicas: Variaciones en los
precios, en los salarios,
en los ingresos, etc.
Se calculan para 2 períodos de una serie de tiempo o para todos los períodos de
una serie de tiempo con respecto a un período fijo llamado período base.
Que importancia tienen estas temáticas para cualquier ciencia.
·
Motivan a la alta gerencia
para que definan los objetivos básicos de la empresa.
·
Propician que se defina una estructura
adecuada, determinando la responsabilidad
y autoridad
de cada una de las partes que integran la
organización.
·
Incrementan la participación de los diferentes niveles de
la organización,
cuando existe motivación adecuada.
·
Obligan a mantener un archivo
de datos históricos controlables.
·
Facilitan a la administración
la utilización óptima de los diferentes insumos.
·
Facilitan la coparticipación e integración de las
diferentes áreas de la compañía.
·
Obligan a realizar un autoanalisis periódico.
·
Facilitan el control
administrativo.
·
Son un reto que constantemente presenta a los ejecutivos
de una organización para ejercitar su creatividad
y criterio profesional a fin del mejoramiento de la empresa.
·
Ayudan a lograr una mayor efectividad y eficiencia
en las operaciones.
Pronosticación
La importancia para el contador
(a) de la realización de pronósticos radica en:
·
Para prevenir los cambios del entorno, de manera que anticipándose
a ellos sea más fácil la adaptación de las organizaciones.
·
Para integrar los objetivos y decisiones de la
organización.
·
A través de los pronósticos, se pueden prever las
perdidas en los resultados de los estados
financieros futuros, y de esta manera se pueden tomar decisiones
bien sea la reducción de costos y gastos,
planear estrategias
que ayuden al mejoramiento de la empresa, y que se cumpla con el objetivo de
toda empresa que es obtener utilidades.
·
Con base en análisis de rotación de inventarios
se puede tomar la decisión de aumentar o sacar del mercado un producto.
En cuales áreas de su competencia
profesional es útil aplicar este conocimiento.
·
Economía
·
Administración
·
Psicología y las demás áreas afines (Ciencias
exactas y ciencias
Sociales)
·
Medicina etc. Nosotras pensamos que estos temas de
estadística son indispensables en cualquier área ya que a diario se presentan
situaciones donde intervienen dos variables y es importante este conocimiento
para la toma de
decisiones.
Realizando un breve
análisis de
Como se puede observar
en la tabla de números índices base fija, en el mes de junio de 2003 se hace
demasiado notable la mala administración por parte de la empresa debido a que
tenemos una variación en el costo
del 250%, una variación en los ingresos del 125% y una variación de las
utilidades de un déficit del 125%; lo cual no tiene sentido alguno en el desarrollo
de las actividades de una empresa,
donde el objetivo general de una empresa es obtener rentabilidad.
En la tabla de números
índice en base móvil, observamos que el porcentaje de variación de costos y el
de los ingresos respecto a la tabla en base fija van disminuyendo a medida que
avanza el periodo, mientras que el porcentaje de variación en las utilidades en
las dos tablas fueron muy diferentes, el la base móvil las utilidades estuvieron
muy variables entre utilidad y perdida, en cambio en la base fija siempre se
presento déficit en forma creciente a medida en que avanzaba el periodo.
Conclusiones del ejemplo:
Es de suma importancia
que la empresa ESTIMAR LTDA. Realice una planeación de presupuesto
con el fin de investigar sobre el comportamiento de los diferentes mercados,
los cuales tienen incidencia directa sobre el producto, como también realizar
el plan
de necesidades de insumos el cual consiste en detectar los requerimientos de
los diferentes recursos
que intervienen en el proceso productivo de tal modo que se pueda hacer frente
al plan de mercados.
Realizar el plan
financiero que tiene como finalidad decidir como se resolvera
el problema de liquidez y de financiamiento
de la empresa, una vez que se haya pronosticado los ingresos y los desembolsos
provenientes del plan de requerimientos de insumos.
Mediante un buen grado
de correlación, podemos fácilmente hacer estimativos acerca de cómo se va a
comportar una variable de interés (en nuestro caso los ingresos, costos y
utilidades mensuales de la empresa ESTIMAR LTDA.) a través del tiempo.
Los ingresos de ESTIMAR
LTDA. desde Enero de 2002, presentan una tendencia
creciente y se ajustó aun modelo matemático polinomial
con un grado de correlación excelente, R = 0.9627, mostrando una buena relación
entre los datos manejados.
Se observa que ESTIMAR
LTDA. es una empresa con una muy mala gestión
administrativa, porque fueron mas altos los costos que los ingresos a pesar que
estos estuvieron mas o menos por el mismo nivel afectando notablemente las
utilidades en forma negativa; por tal motivo es necesario mantener en la
empresa costos estándar actualizados, con el propósito de que facilite la
elaboración del presupuesto de requisiciones de materia prima,
mano de obra y de gastos de fabricación indirectos, ya que de otra forma, se
determinarían en forma muy imprecisa
La mejor estrategia
para que no suceda lo anterior estriba en tomar medidas prácticas para la
reducción de costos, lo cual generara mayor margen y permitirá a la empresa
mejorar su posición competitiva.
2) Modelo de regresión
El modelo de regresión lineal simple.
6.3.1 Formulación
matemática del modelo.
El modelo
de regresión más sencillo es el Modelo de Regresión Lineal Simple que
estudia la relación lineal entre la variable respuesta y
la variable regresora
, a
partir de una muestra
i
= 1n, que sigue el siguiente modelo:
Por tanto, es un modelo de regresión paramétrico de diseño fijo. En forma matricial
donde t
=
,
t
=
,
t
=
,
t
=
.
Se supone
que se verifican las siguientes hipótesis:
o, equivalentemente, E = 0, i = 1,...,n.
o, equivalentemente, V ar =
2, i = 1,...,n.
o, equivalentemente, i ~ N
, i = 1,...,n.
Esta
hipótesis en función de los errores sería “los i
son independientes”, que bajo normalidad, equivale a que Cov
= 0, si i
j.
Estimación
de los parámetros del modelo.
En el modelo de regresión
lineal simple hay tres parámetros que se deben estimar: los coeficientes de la
recta de regresión, 0
y
1;
y la varianza de la distribución normal,
2.
El cálculo
de estimadores para estos parámetros puede hacerse por diferentes métodos,
siendo los más utilizados el método de máxima verosimilitud y el método de
mínimos cuadrados.
Método
de máxima verosimilitud.
Conocida
una muestra de tamaño n, ,
de la hipótesis de normalidad se sigue que la densidad condicionada
en yi es
y, por tanto, la función de densidad conjunta de la
muestra es,
Una vez
tomada la muestra y, por tanto, que se conocen los valores de i
= 1n, se define la función de
verosimilitud asociada a la muestra como sigue
esta
función (con variables 0,
1
y
2)
mide la verosimilitud de los posibles valores de estas variables en base
a la muestra recogida.
El método
de máxima verosimilitud se basa en calcular los valores de 0,
1
y
2
que maximizan la función (9.3) y, por tanto, hacen máxima la
probabilidad de ocurrencia de la muestra obtenida. Por ser la función de
verosimilitud una función creciente, el problema es más sencillo si se toman
logaritmos y se maximiza la función resultante, denominada función soporte,
Maximizando la anterior se
obtienen los siguientes estimadores máximo verosímiles,
donde se ha denotado e
a las
medias muestrales de X e Y, respectivamente;
sx2 es la varianza muestral de X y
sXY es la covarianza muestral entre X e Y.
Método
de mínimos cuadrados.
A partir
de los estimadores: 0
y
1,
se pueden calcular las predicciones para las observaciones muestrales, dadas por,
o, en forma matricial,
donde t
=
.
Ahora se definen los residuos como
|
ei |
=
yi - |
|
Residuo |
=
Valor observado -Valor previsto, |
en forma matricial,
Los
estimadores por mínimos cuadrados se obtienen minimizando la suma de los
cuadrados de los residuos, ésto es, minimizando la
siguiente función,
derivando
e igualando a cero se obtienen las siguientes ecuaciones, denominadas ecuaciones
canónicas,
De donde
se deducen los siguientes estimadores mínimo cuadráticos de los
parámetros de la recta de regresión
Se observa que los estimadores por máxima verosimilitud y los estimadores mínimo cuadráticos de 0
y
1
son iguales. Esto es debido a la hipótesis de normalidad y, en adelante, se
denota
0
=
0,MV
=
0,mc y
1
=
1,MV
=
1,mc.
Estimación de parámetros
En general, de las variables experimentales u observacionales no conocemos la fpd.
Podemos conocer la familia (normal, binomial,...)
pero no los parámetros. Para calcularlos
necesitaríamos tener todos los posibles valores de la variable, lo que
no suele ser posible.
La inferencia estadística trata de cómo obtener información (inferir)
sobre los parámetros a partir de subconjuntos de valores (muestras) de
la variable.
Estadístico: variable aleatoria que sólo depende de la
muestra aleatoria elegida para calcularla.
Estimación: Proceso por el que se trata de averiguar un parámetro de la
población representado, en general, por q a partir del valor de un estadístico
llamado estimador y representado por
El problema se resuelve en base al conocimiento de la "distribución
muestral" del estadístico que se use.
¿Qué es esto? Concretemos, p.e. en la media (m). Si
para cada muestra posible calculamos la media muestral () obtenemos
un valor distinto (
es un
estadístico: es una variable aleatoria y sólo depende de la muestra), habrá por
tanto una fpd para
, llamada
distribución muestral de medias. La desviación típica de esta distribución se
denomina error típico de la media. Evidentemente, habrá una distribución
muestral para cada estadístico, no sólo para la media, y en consecuencia un
error típico para cada estadístico.
Si la distribución muestral de un estadístico estuviera relacionada con algún
parámetro de interés, ese estadístico podría ser un estimador del parámetro
4) Varianza de la
regresión en la muestra
Análisis de la varianza de la regresión
Es un modo alternativo de hacer contrastes sobre el
coeficiente 1. Consiste en descomponer la variación de la
variable Y de dos componentes: uno la variación de Y alrededor de los valores
predichos por la regresión y otro con la variación de los valores predichos
alrededor de la media. Si no existe correlación ambos estimadores estimarían la
varianza de Y y si la hay, no. Comparando
ambos estimadores con la prueba de
Observese que el valor de p es igual que
antes (son contrastes equivalentes) y el valor de F es el
cuadrado del de t.
Ejemplo
4: Se quiere
investigar el efecto de la ingestión masiva de vitamina C sobre el hígado de
las cobayas. Se eligen dos grupos de 4 cobayas, a uno se le administra y al
otro no. Se sacrifica a los animales y se mide la concentración de lípidos en el
hígado.
|
Grupo
control (=0) |
Tratado
(=1) |
|
23,8
|
13,8
|
|
15,4
|
9,3
|
|
21,7
|
17,2
|
|
18,0
|
15,1
|
¿Hay
diferencia entre ambos grupos?
Se
podría plantear un contraste sobre medias con la t de Student.
También
se puede plantear un modelo de regresión entre la variable grupo (X=0 control y
X=1 tratado) y la variable lípido (Y)
5) Inferencias acerca de los
coeficientes de regresión de la población:
Coeficiente de variación
Hemos visto que las medidas de centralización y
dispersión nos dan información sobre una muestra. Nos podemos preguntar si
tiene sentido usar estas magnitudes para comparar dos poblaciones. Por ejemplo,
si nos piden comparar la dispersión de los pesos de las poblaciones de elefantes
de dos circos diferentes, nos dará información útil.
¿Pero qué ocurre si lo que comparamos es la altura de
unos elefantes con respecto a su peso? Tanto la media como la desviación
típica, y , se expresan en las mismas unidades que la
variable. Por ejemplo, en la variable altura podemos usar como unidad de
longitud el metro y en la variable peso, el kilogramo. Comparar una desviación
(con respecto a la media) medida en metros con otra en kilogramos no tiene
ningún sentido.
El problema no deriva sólo de que una de las medidas
sea de longitud y la otra sea de masa. El mismo problema se plantea si medimos
cierta cantidad, por ejemplo la masa, de dos poblaciones, pero con distintas
unidades. Este es el caso en que comparamos el peso en toneladas de una
población de 100 elefantes con el correspondiente en miligramos de una
población de 50 hormigas.
El problema no se resuelve tomando las mismas escalas
para ambas poblaciones. Por ejemplo, se nos puede ocurrir medir a las hormigas
con las mismas unidades que los elefantes (toneladas). Si la ingeriería genética no nos sorprende con alguna barbaridad,
lo lógico es que la dispersión de la variable peso de
las hormigas sea practicamente nula (¡Aunque haya
algunas que sean 1.000 veces mayores que otras!)
En los dos primeros casos mencionados anteriormente,
el problema viene de la dimensionalidad de las variables, y en el tercero de la
diferencia enorme entre las medias de ambas poblaciones. El coeficiente de
variación es lo que nos permite evitar estos problemas, pues elimina la
dimensionalidad de las variables y tiene en cuenta la proporción existente
entre medias y desviación típica. Se define del siguiente modo:
Basta dar una rápida mirada a la definición del
coeficiente de variación, para ver que las siguientes consideraciones deben ser
tenidas en cuenta:
Sólo se debe calcular para variables con todos los
valores positivos. Todo índice de variabilidad es esencialmente no negativo.
Las observaciones pueden ser positivas o nulas, pero su variabilidad debe ser
siempre positiva. De ahí que sólo debemos trabajar con variables positivas,
para la que tenemos con seguridad que . No es
invariante ante cambios de origen. Es decir, si a los resultados de una medida
le sumamos una cantidad positiva, b>0, para tener Y=X+b, entonces
, ya que la desviación típica no es sensible ante cambios de origen,
pero si la media. Lo contario ocurre si restamos
(b<0).
6) Predicción y Pronosticación:
Las predicciones estadísticas, difícilmente hacen referencia a sucesos
concretos, pero describen con considerable precisión en el comportamiento
global de grandes conjuntos de sucesos particulares. Son predicciones que, en
general, no acostumbran resultar útiles.
Para saber quien, de entre los miembros de una población importante, va a
encontrar trabajo o a quedarse sin él; o en cuales miembros va a verse
aumentada o disminuida una familia concreto en los
próximos meses. Pero que, en cambio puede proporcionar estimaciones fiables del
próximo aumento o disminución de la taza de desempleo referido al conjunto de
la población; o de la posible variación de os índices de natalidad o
mortalidad.
7) Análisis de Correlación
A fin de facilitar la
comprensión del presente apartado se define algunos conceptos básicos:
Análisis de Correlación .- Es el conjunto de técnicas
estadísticas
empleado para medir la intensidad de la asociación entre dos variables.
El principal objetivo
del análisis
de correlación consiste en determinar que tan intensa es la relación entre dos
variables. Normalmente, el primer paso es mostrar los datos en un diagrama
de dispersión.
Diagrama de Dispersión.- es aquel grafico
que representa la relación entre dos variables.
Variable Dependiente.- es la variable que se predice o
calcula. Cuya representación es "Y"
Variable Independiente.- es la variable que proporciona
las bases para el calculo. Cuya representación es: X1,X2,X3.......
Coeficiente de Correlación.- Describe la intensidad de la
relación entre dos conjuntos de variables de nivel de intervalo. Es la
medida de la intensidad de la relación lineal entre dos variables.
El valor del coeficiente de correlación puede tomar valores
desde menos uno hasta uno, indicando que mientras más cercano a uno sea el
valor del coeficiente de correlación, en cualquier dirección,
más fuerte será la asociación lineal entre las dos variables. Mientras más
cercano a cero sea el coeficiente de correlación indicará que más débil es la
asociación entre ambas variables. Si es igual a cero se concluirá que no existe
relación lineal alguna entre ambas variables.
Análisis de regresión.- Es la técnica empleada para
desarrollar la ecuación y dar las estimaciones.
Ecuación de Regresión.- es una ecuación que define la
relación lineal entre dos variables.
Ecuación de regresión
Lineal: Y’ = a + Bx
Ecuación de regresión Lineal Múltiple: Y’ = a + b1X1
+ b2X2 + b3X3...
Principio de Mínimos Cuadrados.- Es la técnica empleada
para obtener la ecuación de regresión, minimizando la suma de los cuadrados de
las distancias verticales entre los valores
verdaderos de "Y" y los valores pronosticados "Y".
Análisis de regresión y Correlación Múltiple.- consiste en
estimar una variable dependiente, utilizando dos o más variables
independientes.
Ecuación de regresión
Múltiple.- La forma general de la ecuación de regresión múltiple con dos variables
independientes es:
|
Y' = a + b1X1 + b2X2 |
X1,X2 : Variables Independientes
a : es la ordenada del
punto de intersección con el eje Y.
b1 : Coeficiente de Regresión (es la variación neta en Y por
cada unidad de
variación en X1.).
b2 : Coeficiente de Regresión (es el
cambio
neto en Y para cada cambio
unitario en X2).
Prueba Global.- esta prueba investiga básicamente si es
posible que todas las variables independientes tengan coeficientes de regresión
neta iguales a 0.
Una agencia de Viajes
desea saber la relación que hay entre las ventas,
el presupuesto
destinado a publicidad,
y las comisiones de los vendedores para esto presenta
los siguientes datos. Realice los análisis respectivos.
|
|
Y |
X1 |
X2 |
|
AÑO |
VENTAS |
GASTOS DE PUBLICIDAD |
COMISIONES DE VENDEDORES |
|
2000 |
264000 |
550 |
15840 |
|
2001 |
384000 |
590 |
19250 |
|
2002 |
400200 |
680 |
26013 |
|
2003 |
422400 |
700 |
16896 |
|
2004 |
543000 |
750 |
16290 |
1.
ANÁLISIS DE DATOS:
Se
van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos
de Publicidad
2.
2.- Comisión de vendedores
3.
Variable dependiente:
-
Ventas
Utilizando el Excel
obtenemos los siguientes datos.
|
Estadísticas de la
Regresión |
|
|
Coeficiente de correlación múltiple |
0.92092 |
|
Coeficiente de determinación R2 |
0.84810 |
|
R2 ajustado |
0.69619 |
|
Error típico |
54887.83156 |
|
Observaciones |
5 |
4
De aquí se puede decir:
- De acuerdo al valor
del coeficiente de correlación múltiple, podemos afirmar que la variable X1
(Gastos de Publicidad) y X2 (Comisión de vendedores) se encuentran
asociadas en forma directa de una manera muy fuerte con la variable dependiente
Ventas, en un 92%.
- De acuerdo al Coeficiente de determinaciión R2, podemos decir que
el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las
comisiones de los vendedores.
|
A N Á L I S I S D E V A R I A N Z A |
|||||
|
|
Grados de libertad |
Suma de cuadrados |
Prom. de los
cuadrados |
F |
Valor crítico de F |
|
Regresión |
2 |
33640459893 |
16820229947 |
5.5832 |
0.15190282 |
|
Residuos |
2 |
6025348107 |
3012674053 |
|
|
|
Total |
4 |
39665808000 |
|
|
|
4.
|
|
Coeficientes |
Error típico |
Estadístico t |
Probab. |
Inf. 95% |
Sup. 95% |
Inferior 95.0% |
Sup. 95.0% |
|
Intercepción |
-289315.16 |
242459.39 |
-1.193 |
0.35513 |
-1332534.446 |
753904.118 |
-1332534.446 |
753904.118 |
|
GSTOS DE PUBLICID. |
1123.49 |
336.22 |
3.342 |
0.07908 |
-323.1275965 |
2570.108 |
-323.128 |
2570.108 |
|
COM. DE VENDED. |
-2.27 |
6.55 |
-0.346 |
0.76245 |
-30.45400257 |
25.922 |
-30.454 |
25.922 |
5.
De aquí se desprende la ecuación de regresión múltiple:
|
Y = - 289315 + 1123 X1 - 2.27 X2 |
6.
Prueba Global: Verificación de la validez del modelo de regresión
Múltiple.
Formulación de Hipótesis:
Hp: B1 = B2 = 0
Ha: B1 B2 0
7.
Si se acepta la hipótesis
planteada, significa que ninguno de los factores (X1,X2) son relevantes para explicar los cambios en
Y.
De acuerdo a la tabla de análisis de la varianza F calculado es 5.58
y el p-valor es 0.15, de lo cual podemos decir que La
hipótesis planteada se rechaza y se acepta la hipótesis alternativa, por que el
F calculado es mayor que el p-valor.
Hasta ahora se ha demostrado que algunos, pero no necesariamente todos los
coeficientes de regresión, no son iguales a cero y, por o tanto son útiles para
las predicciones. El siguiente paso consiste en probar individualmente las
variables para determinar cuales coeficientes de regresión pueden ser cero y
cuales no.
Del análisis mediante Excell tenemos el siguiente
cuadro.
VENTAS VS GASTOS DE PUBLICIDAD
|
Estadísticas de la regresión |
|
|
Coeficiente de correlación múltiple |
0.915976333 |
|
Coeficiente de determinación R^2 |
0.839012642 |
|
R^2 ajustado |
0.785350189 |
|
Error típico |
46136.36902 |
|
Observaciones |
5 |
8.
|
A N Á L I S I S
D E V A R I A N Z A |
|||||
|
|
GL |
Suma de cuadrados |
Prom. de los cuadr. |
F |
p-Valor |
|
Regresión |
1 |
33280114360 |
33280114360 |
15.6350 |
0.028865932 |
|
Residuos |
3 |
6385693640 |
2128564547 |
|
|
|
Total |
4 |
39665808000 |
|
|
|
9.
|
|
Coeficientes |
Error típico |
Estadíst. t |
Probab. |
Inf. 95% |
Sup. 95% |
Inf. 95% |
Sup. 95% |
|
Intercepción |
-324444.428 |
185054.64 |
-1.7532 |
0.1778 |
-913371.43 |
264482.58 |
-913371.43 |
264482.58 |
|
GASTOS DE PUBLICIDAD |
1111.8722 |
281.19389 |
3.9541 |
0.0289 |
216.9869 |
2006.7575 |
216.9869 |
2006.7575 |
10.
VENTAS VS COMISIÓN DE VENDEDORES
|
Estadísticas de la regresión |
|
|
Coeficiente de correlación múltiple |
0.003317293 |
|
Coeficiente de determinación R^2 |
1.10044E-05 |
|
R^2 ajustado |
-0.333318661 |
|
Error típico |
114986.0448 |
|
Observaciones |
5 |
11.
|
ANÁLISIS DE VARIANZA |
|||||
|
|
GL |
Suma de cuadrados |
Prom. de los cuadrados |
F |
Valor crítico de F |
|
Regresión |
1 |
436499.6307 |
436499.6307 |
3.30137E-05 |
0.9957763 |
|
Residuos |
3 |
39665371500 |
13221790500 |
|
|
|
Total |
4 |
39665808000 |
|
|
|
12.
|
|
Coeficientes |
Error típico |
Estadíst. t |
Probabilidad |
Inferior 95% |
Superior 95% |
Inferior 95.0% |
Superior 95.0% |
|
Intercepción |
404199.6521 |
262605.1563 |
1.539191605 |
0.22138434 |
-431527.9414 |
1239927.246 |
-431527.9414 |
1239927.246 |
|
COM. DE VENDEDORES |
-0.07846366 |
13.65594537 |
-0.00574575 |
0.9957763 |
-43.53781731 |
43.38088999 |
-43.53781731 |
43.38088999 |
13.
De acuerdo a los cuadros podemos decir:
- La variable que mas relación tiene con llas Variable Dependiente es decir las
ventas
14.
es la variable Gastos de Publicidad ya que su R2
"Coeficiente de determinación" es
15.
79%.
- En cuanto a la variable Comisiones de veendedores podemos decir que no tiene
16.
relación relevante con las Ventas ya que su Coeficiente
de determinación es casi
17.
nulo 0.001% .
8) Coeficiente de
correlación de la población y de la muestra:
El coeficiente de correlación
de Pearson es un índice estadístico que mide la
relación lineal entre dos variables cuantitativas. A diferencia de la covarianza, la
correlación de Pearson es independiente de la escala
de medida de las variables.
El cálculo del coeficiente de
correlación lineal se realiza dividiendo la covarianza
por el producto de las desviaciones estándar de ambas variables:
Siendo:
σXY la covarianza de (X,Y)
σX y σY las
desviaciones típicas de las distribuciones marginales.
El valor del índice de correlación varía en el intervalo [-1
, +1]:
Se dice que una correlación es significativa si la misma se encuentra entre [-1 ; -0,7] o [1 ; 0,7]
El Coeficiente de correlación
de Spearman, ρ
(rho), es una prueba no paramétrica que mide la asociación o
interdependencia entre dos variables discretas.
Para calcular ρ, los datos son ordenados y reemplazados por su respectivo
orden.
El estadístico ρ viene dado
por la expresión:
donde D
es la diferencia entre los correspondientes valores de x - y. N
es el número de parejas.
Se tiene que considerar la
existencia de datos idénticos a la hora de ordenarlos, aunque si éstos son
pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20
observaciones, podemos utilizar la siguiente aproximación a la distribución t
de Student
La interpretación de coeficiente de Spearman es igual
que la del coeficiente
de correlación de Pearson. Oscila entre -1
y +1, indicándonos asociaciones negativas o positivas respectivamente, 0 cero,
significa no correlación pero no independencia. La tau de Kendall es un
coeficiente de correlación por rangos, inversiones entre dos ordenaciones de
una distribución normal bivariante.
Los datos brutos usados en este
ejemplo se ven debajo.
|
CI |
Horas de TV a la semana |
|
106 |
7 |
|
86 |
0 |
|
100 |
28 |
|
100 |
50 |
|
99 |
28 |
|
103 |
28 |
|
97 |
20 |
|
113 |
12 |
|
113 |
7 |
|
110 |
17 |
El primer paso es ordenar los
datos de la primera columna. Después, se crean dos columnas más. Ambas son para
ordenar (establecer un lugar en la lista) de las dos primeras columnas. Después
se crea una columna "d" que muestra las diferencias entre las dos
columnas de orden. Finalmente, se crea otra columna "d2".
Esta última es sólo la columna d al cuadrado.
Después de realizar todo esto con
los datos del ejemplo, se debería acabar con algo como lo siguiente:
|
CI (i) |
Horas de TV a la semana (t) |
orden(i) |
orden(t) |
d |
d2 |
|
86 |
0 |
1 |
1 |
0 |
0 |
|
97 |
20 |
2 |
6 |
4 |
16 |
|
99 |
28 |
3 |
8 |
5 |
25 |
|
100 |
50 |
4.5 |
10 |
5.5 |
30.25 |
|
100 |
28 |
4.5 |
8 |
3.5 |
12.25 |
|
103 |
28 |
6 |
8 |
2 |
4 |
|
106 |
7 |
7 |
2.5 |
4.5 |
20.25 |
|
110 |
17 |
8 |
5 |
3 |
9 |
|
113 |
7 |
9.5 |
2.5 |
7 |
49 |
|
113 |
12 |
9.5 |
4 |
5.5 |
30.25 |
Nótese como el número de orden de
los valores que son idénticos es la media de los números de orden que les
corresponderían si no lo fueran.
Los valores de la columna d2
pueden ser sumados para averiguar .
El valor de n es 10. Así que esos valores pueden ser sustituídos
en la fórmula.
De lo que resulta ρ = − 0.187878787879.
La aproximación moderna al
problema de averiguar si un valor observado de ρ es significativamente
diferente de cero (siempre tendremos 1 ≥ ρ ≥ −1) es
calcular la probabilidad de que fuera mayor o igual que el ρ observado,
dada la hipótesis nula,
utilizando un permutation test. Esta
aproximación es casi siempre superior a los métodos tradicionales, a no ser que
el data set
sea tan grande que la potencia informática no sea suficiente para generar
permutaciones (poco probable con la informática moderna), o a no ser que sea
difícil crear un algoritmo para crear permutaciones que sean lógicas bajo la
hipótesis nula en el caso particular de que se trate (aunque normalmente estos
algoritmos no ofrecen dificultad).
Aunque el test
de permutación es a menudo trivial para cualquiera con recursos informáticos y
experiencia en programación, todavía se usan ampliamente los métodos
tradicionales para obtener significación. La aproximación más básica es comparar
el ρ observado con tablas publicadas para varios niveles de significación.
Es una solución simple si la significación sólo necesita saberse dentro de
cierto rango, o ser menor de un determinado valor, mientras haya tablas
disponibles que especifiquen los rangos adecuados. Más abajo hay una referencia
a una tabla semejante. Sin embargo, generar estas tablas es computacionalmente
intensivo y a lo largo de los años se han usado complicados trucos matemáticos
para generar tablas para tamaños de muestra cada vez mayores, de modo que no es
práctico para la mayoría extender las tablas existentes.
Una aproximación alternativa para
tamaños de muestra suficientemente grandes es una aproximación a la distribución t
de Student. Para tamaños de muestra más
grandes que unos 20 individuos, la variable
tiene una
distribución t de Student en el caso nulo
(correlación cero). En el caso no nulo (ej: para
averiguar si un ρ observado es significativamente diferente a un valor
teórico o si dos ρs observados difieren
significativamente, los tests son mucho menos
potentes, pero puede utilizarse de nuevo la distribución t.
Una generalización del coeficiente
de Spearman es útil en la situación en la cual hay
tres o más condiciones, varios individuos son observados en cada una de ellas,
y predecimos que las observaciones tendrán un orden en particular. Por ejemplo,
un conjunto de individuos pueden tener tres oportunidades para intentar cierta
tarea, y predecimos que su habilidad mejorará de intento en intento. Un test de la significación de la tendecia
entre las condiciones en esta situación fue desarrollado por E. B. Page y normalmente suele conocerse como Page's trend test
para alternativas ordenadas.
Bibliografía
MONTGOMERY Douglas C., RUNGER George
C., Probabilidad
y Estadística Aplicadas a la Ingeniería,
Ed. McGraw Hill, 1996,
Capítulo 9.
AULAFACIL.COM, Curso de Estadística,
Capítulos 12 y 13, 2003.
RAMÍREZ, D. (2004). CONTABILIDAD
ADMINISTRATIVA. Adisson
Wesley Iberoamericana.
LIND, Douglas y MARCHAL, William y MASON, Robert.
Estadística para administración
y economia. Alfaomega.
Colombia
11ava edición.
2004 Cap.13 y 14.
CORDOVA, Jorge Herramientas
Estadísticas para la Gestión
en Salud. JC ediciones. Versión electrónica
(formato CD)
Mayo 2003.
HILDEBRAND, David y OTT, Lyman. Estadística Aplicada a la administración
y a la economia. Adisson
Wesley Iberoamericana sa.
1997. Cap. 13,14 y 15.
http://math.uprm.edu/~edgar/cap1sl.ppt#273,21,1.3.2
El análisis de varianza para regresión
lineal simple
http://www.monografias.com/trabajos27/regresion-simple/regresion-simple.shtml
http://www.monografias.com/trabajos14/estadistica/estadistica.shtml
http://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf
http://www.fisterra.com/mbe/investiga/regre_lineal_simple/regre_lineal_simple.asp
http://www.udc.es/dep/mate/estadistica2/sec6_3.html
http://www.hrc.es/bioest/Introducion_est.html
http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Pearson
http://es.wikipedia.org/wiki/Coeficiente_de_correlaci%C3%B3n_de_Spearman