UNIVERSIDAD YACAMBÚ

Trabajo 5
Estadística I

Autores:

Moira Soto

Ingrid Chávez

Shirley Alarcón

Rafael Rada

Luis Omar Sánchez

ASOCIACIÓN ENTRE VARIABLES

La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simples son los medios de presentación gráfica y tabulación. La intensidad de la asociación entre variables puede también describirse como una estadística especial.

En el análisis propiamente dicho de los datos, el propósito es extraer una invariante o estructura de interés a partir de los datos. Si al analizar los datos, se descubre alguna asociación entre las variables, el investigador indagará la razón de esta asociación en el mundo empírico y le buscará la explicación a esta asociación utilizando la descripción y aplicación .

A continuación métodos de análisis estadístico a través de los cuales se estudia la interdependencia entre una o más variables.

Meta de análisis	Escala nominal	Escala ordinal	Escala de intervalo	Escala de proporción
Presentar datos y su estructura a grandes rasgos	Tabulación ; Gráficos
Medir la fuerza de la asociación entre dos variables	Coeficiente de contingencia
	-	Correlación ordinal
	-	-	Correlación r de Pearson
Encontrar qué variables entre varios son asociadas:	Calcular contingencias o correlaciones para todos los pares de variables ; análisis factorial
Transcribir una asociación estadística en una función matemática:	-	-	Análisis de regresión

Tabulación

La tabulación es una forma habitual de presentar las asociaciones entre dos o más variables. Una tabla tiene la ventaja de que en ella puede disponerse bien una cantidad extensa de datos y se conservan las cifras exactas. Una desventaja es que una tabla grande no es ilustrativa: raras veces revela algo más que las más obvias regularidades o interdependencias entre datos. Algunas abreviaturas convencionales usadas en tablas se presentan bajo el encabezado Clasificar.

Presentación gráfica

Los productos, como objetos de estudio, son presentados con frecuencia como imágenes, que son una forma de presentación gráfica.

Ejemplo:

Dependiendo de los datos que el investigador desee ilustrar puede utilizar diferentes tipos de gráficos, por ejemplo:

Si el investigador desea resaltar algunos rasgos comunes o patrones generales que ha encontrado en un grupo de objetos, puede combinar varios objetos en un gráfico.

Si los datos consisten en pocas mediciones, es posible mostrarlos todos como un diagrama de dispersión. Podemos exhibir los valores de dos variables sobre los ejes de abscisas y ordenadas, y adicionalmente unas cuantas variables más utilizando los colores o formas de los puntos.

Si la variación es demasiado pequeña para que aparezca claramente, podemos darle énfasis eliminando partes de una o ambas escalas. Simplemente eliminamos la parte que no nos interesa, sea por la parte superior o por la inferior.

Por otro lado, si el rango de variación de los datos es muy amplio, podemos plantearnos usar una escala logarítmica en uno o ambos ejes. La escala logarítmica es apropiada solamente en una escala de proporción.

Si son cientos de mediciones, es probable que no se puedan mostrar todas en forma de diagrama de dispersión. Una posibilidad en este caso es clasificar los casos y presentarlos como un histograma.

El histograma puede adaptarse para presentar hasta cuatro o cinco variables. Esto se logra variando las anchuras de las columnas, sus colores, sus tramados y por una representación tridimensional. Todas estas variaciones se crean fácilmente con un programa de hoja de cálculo como Excel, pero no deben ser usadas sólo como adorno.

El investigador suele estar interesado en las relaciones de dos o más variables antes que en las parejas de mediciones tomadas separadamente. La forma normal de presentar dos o más variables interdependientes es la curva. Esto implica una variable continua (es decir, en que el número de posibles valores es infinito).

No se deben producir curvas a partir de mediciones que no son valores de la misma variable. Por ejemplo, los atributos de un objeto son variables diferentes.

MODELOS DE REGRESIÓN BIVARIABLE LINEAL

Análisis de regresión

El investigador suele tener razones teóricas o prácticas para creer que determinada variable es causalmente dependiente de una o más variables distintas. Si hay bastantes datos empíricos sobre estas variables, el análisis de regresión clásico o "multivariate" es un método apropiado para desvelar el patrón exacto de esta asociación.

El análisis de la regresión encuentra la ecuación lineal que se desvía lo menos posible de las observaciones empíricas.

Modelos de Regresión

Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:

- Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática

- Una dispersión de las observaciones alrededor de la curva de relación estadística.

Estas dos características están implícitas en un modelo de regresión, postulando que:

En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X.

Las medias de estas distribuciones varían de manera sistemática al variar X.

Representación gráfica del modelo de Regresión Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

Análisis de Regresión

- Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la o las variables independientes (X).

- Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.

Supuestos de Regresión Lineal Clásica

Cada error está normalmente distribuido con:

- Esperanza de los errores igual a 0

- Variancia de los errores igual a una constante σ².

- Covariancia de los errores nulas para todo i ≠ Ψ

El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889), partiendo de los análisis estadísticos de Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar a la media. Galton generalizó esta tendencia bajo la "ley de la regresión universal": «Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.»

Modelos de regresión

Regresión lineal

Artículo principal:

· Regresión lineal

· Regresión lineal simple

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = b0 + b1X

b0 (ordenada en el origen, constante)

b1 (pendiente de la recta)

A la cantidad e=Y-Ŷ se le denomina residuo o error residual.

Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0'5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm. por cada cm. del padre.

ESTIMACIÓN DE PARÁMETROS DE REGRESIÓN

En estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.

En su versión más simple, una estimación de la media de una determinada característica de una población de tamaño N sería la media de esa misma característica para una muestra de tamaño n.

Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar.

Regresión simple: interviene una sola variable independiente

Regresión múltiple: intervienen dos o más variables independientes.

Regresión lineal: la función es una combinación lineal de los parámetros.

Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal

Proceso de estimación de la regresión lineal simple

Modelo de regresión

y = β₀+ β₁x + ε

Ecuación de regresión

E(y) = β₀+ β₁x

Parámetros desconocidos

β₀.β₁

Datos de la muestra

x	y
x₁ x₂ . . . x_n	y₁ y₂ . . . y_n

b₀ y b₁

proporcionan estimados

β₀ y β₁

Ecuación estimada de regresión

y = b₀+b₁x

Estadísticos de la muestra

b₀.b₁

Líneas posibles de regresión en la regresión lineal simple

Sección A

Relación lineal positiva

Sección C

No hay relación

Sección B

Relación lineal negativa

Estimación de la ecuación de Regresión Simple

Y´ = a + b.X, donde:

- Y´ es el valor estimado de Y para distintos X.

- a es la intersección o el valor estimado de Y cuando X=0

- b es la pendiente de la línea, o el cambio promedio de Y´ para cada cambio en una unidad de X

- el principio de mínimos cuadrados es usado para obtener a y b:

a = (∑Y)/n - b.(∑X)/n

Mínimos cuadrados - Supuestos

El modelo de regresión es lineal en los parámetros.

Los valores de X son fijos en muestreo repetido.

El valor medio de la perturbación εi es igual a cero.

Homocedasticidad o igual variancia de ε_i.

No autocorrelación entre las perturbaciones.

La covariancia entre ε_i y X_i es cero.

El número de observaciones n debe ser mayor que el número de parámetros a estimar.

Variabilidad en los valores de X.

El modelo de regresión está correctamente especificado.

No hay relaciones lineales perfectas entre las explicativas.

Estimación de la variancia de los términos del error (σ²)

Debe ser estimada por varios motivos

Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.

Para realizar inferencias con respecto a la función de regresión y la predicción de Y.

La lógica del desarrollo de un estimador de σ² para el modelo de regresión es la misma que cuando se muestrea una sola población

La variancia de cada observación Yi es σ²,la misma que la de cada término del error

Dado que los Y_i provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Y_i debe ser calculada con respecto a su propia media estimada Y_i.

Y_i - Ŷ_i = e_i

Por tanto, las desviaciones son los residuales

Y la suma de cuadrados es:

La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parámetros.

Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de σ²

Análisis de Variancia en el análisis de regresión

El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.

La variación de los Y_i se mide convencionalmente en términos de las desviaciones

(Y_i - Y_i)

La medida de la variación total SC _tot, es la suma de las desviaciones al cuadrado

∑(Y_i - Y_i)²

Desarrollo formal de la partición

Consideremos la desviación

(Y_i - Y_i)

Podemos descomponerla en

(Y_i - Y)	=	(Ŷ_i - Y)	+	(Y_i - Ŷ_i)
T		R		E

(T): desviación total

(R): es la desviación del valor ajustado por la regresión con respecto a la media general

(E): es la desviación de la observación con respecto a la línea de regresión

Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen

∑(Y_i - Y)²	=	∑(Ŷ_i - Y)²	+	∑(Y_i - Ŷ_i)²
SC _tot		SC _reg		SCer

(SC _tot): Suma de cuadrados total

(SC _reg): Suma de cuadrados de la regresión

(SCer): Suma de cuadrados del error

Dividiendo por los grados de libertad, (n-1), (k) y

(n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia.

Coeficiente de Determinación

Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X.

- El coeficiente de determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y 1.

Cálculo del R² a través de la siguiente fórmula

R² = [∑(Ŷ_c - Y)²]/[∑(Ŷ_o - Y)²]

PREDICCION Y PRONOSTICACIÓN

Tipos de predicciones

Existen dos tipos de 5 categóricas. Consisten en afirmaciones que indican que ciertos eventos (o valores de variables) particulares van a ocurrir o no - las predicciones se indican sin cualidades. Por ejemplo, "esta noche va a llover" o "mañana la temperatura subirá hasta 25°C".

Predicciones probabilistas. Consisten en afirmaciones sobre la probabilidad de que ocurra un evento. Por ejemplo, "esta noche hay un 80% de probabilidad de que llueva" o "hay un 10% de probabilidad de que la temperatura suba más de 3°C sobre la normal".

Nótese que esos dos tipos de predicciones están relacionados: las predicciones categóricas son de hecho predicciones probabilistas en las que las únicas probabilidades que se utilizan son 0 y 1.

Ejemplos De Predicción

• Ventas por una empresa para comprobar nivel de stocks

• Rentabilidad de una inversión para determinar si buena inversión

• Ventas de un nuevo producto para decidir su producción

• Efectos de una medida de política económica

• Población estudiantil de aquí a 15 años, para construcción colegios

• Tipo de interés para decidir qué tipo de préstamo escoger

ANALISIS DE CORRELACION

Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.

El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

1. Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es "Y"
Variable Independiente.- es la variable que proporciona las bases para el calculo. Cuya representación es: X₁,X₂,X₃.......
Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos variables.
El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables.
Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las estimaciones.
Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.
Ecuación de regresión Lineal: Y’ = a + Bx
Ecuación de regresión Lineal Múltiple: Y’ = a + b₁X₁ + b₂X₂ + b₃X₃...
Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de "Y" y los valores pronosticados "Y".
Análisis de regresión y Correlación Múltiple.- consiste en estimar una variable dependiente, utilizando dos o más variables independientes.

Ecuación de regresión Múltiple.- La forma general de la ecuación de regresión múltiple con dos variables independientes es:

Y' = a + b₁X₁ + b₂X₂

X₁,X₂ : Variables Independientes

a : es la ordenada del punto de intersección con el eje Y.
b₁ : Coeficiente de Regresión (es la variación neta en Y por cada unidad de

variación en X₁.).
b₂ : Coeficiente de Regresión (es el cambio neto en Y para cada cambio

unitario en X₂).

Prueba Global.- esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión neta iguales a 0.

2. Desarrollo de un Caso.
Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. Realice los análisis respectivos.

	Y	X₁	X₂
AÑO	VENTAS	GASTOS DE PUBLICIDAD	COMISIONES DE VENDEDORES
2000	264000	550	15840
2001	384000	590	19250
2002	400200	680	26013
2003	422400	700	16896
2004	543000	750	16290

3. ANÁLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad

4. 2.- Comisión de vendedores

5. Variable dependiente:
- Ventas

Utilizando el Excel obtenemos los siguientes datos.

*Estadísticas de la Regresión*
Coeficiente de correlación múltiple	0.92092
Coeficiente de determinación R²	0.84810
R² ajustado	0.69619
Error típico	54887.83156
Observaciones	5

De aquí se puede decir:
- De acuerdo al valor del coeficiente dee correlación múltiple, podemos afirmar que la variable X₁ (Gastos de Publicidad) y X₂(Comisión de vendedores) se encuentran asociadas en forma directa de una manera muy fuerte con la variable dependiente Ventas, en un 92%.
- De acuerdo al Coeficiente de determinaacción R², podemos decir que el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las comisiones de los vendedores.

A N Á L I S I S D E V A R I A N Z A
	*Grados de libertad*	*Suma de cuadrados*	*Prom. de los cuadrados*	F	*Valor crítico de F*
Regresión	2	33640459893	16820229947	5.5832	0.15190282
Residuos	2	6025348107	3012674053
Total	4	39665808000

	*Coeficientes*	*Error típico*	*Estadístico t*	*Probab.*	*Inf. 95%*	*Sup. 95%*	*Inferior 95.0%*	*Sup. 95.0%*
Intercepción	-289315.16	242459.39	-1.193	0.35513	-1332534.446	753904.118	-1332534.446	753904.118
GSTOS DE PUBLICID.	1123.49	336.22	3.342	0.07908	-323.1275965	2570.108	-323.128	2570.108
COM. DE VENDED.	-2.27	6.55	-0.346	0.76245	-30.45400257	25.922	-30.454	25.922

De aquí se desprende la ecuación de regresión múltiple:

Y = - 289315 + 1123 X₁ - 2.27 X₂

EL COEFICIENTE DE DETERMINACION O ESTADISTICA R²

El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

Algunas otras formas de presentar el coeficiente de determinación son:

Algunas de las equivalencias anteriores pueden verse a partir de la demostración de .

El coeficiente de determinación múltiple, es una generalización del valor de definida en la lección de R cuadrado definida para una línea recta.

Utilidad

Se utiliza para medir la reducción en la variabilidad total de debido a la inclusión de las variables regresoras . Un valor grande de no necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de , ya sea que las variables contribuyan o no al modelo. Es posible que modelos con valor de grande sean malos en la predicción o estimación.

análisis de varianza en regresión lineal

Cualquiera que sea el origen de los datos experimentales que deseamos analizar para extraer conclusiones prácticas (p.ej., planillas de operación, ensayos preprogramados intencionalmente, etc.) debemos recurrir a la estadística para que nos oriente en la tarea. La forma más poderosa, quizás, de analizar estos datos es mediante los dos tipos de análisis mencionados en el título. Ambos tipos están ligados entre sí por una teoría coherente que permite transformar uno de los dos tipos de análisis en el otro.

Empecemos por el modelo más simple. Sea un modelo lineal y de un único factor X. Este modelo lineal, llamado también de primer orden, resulta ser

OMEGA = b₀ + b₁X

Modelo denominado de regresión, donde OMEGA es el criterio a maximizar, b₀ es la ordenada al origen y b₁ es la pendiente de la recta. Ya que las incógnitas o parámetros b₀ y b₁ son solamente dos, nos alcanzan dos niveles distintos para la variable X para identificarlos. Sin embargo, habrá que repetirlos para no dejarnos confundir por el error experimental.

Este caso sencillo se puede mirar también desde otra óptica. Un modelo equivalente, denominado de análisis de la varianza, es el de escribir

OMEGA = mu + alfa_i + e _ij

Donde mu = el valor medio del ensayo, alfa es la incidencia sobre los resultados del factor X que estamos midiendo y e es el error experimental.

Para entender este modelo afirmemos que el resultado de una tentativa en el nivel i durante la replicación j , es:

gamma_ij = gamma_ij

     i = 1,2,.., n (niveles) y

     j = 1,2,... m (replicaciones)

Sumando y restando a la igualdad tanto el promedio de todas las n.m tentativas, gamma_n como el promedio de los m ensayos realizados en el nivel i del único factor, gamma_., llegamos a que

gamma_ij = gamma_.. + (gamma_. - gamma_..) + (gamma_ij> - gamma_.)

Donde los tres sumandos que han quedado explícitos son, respectivamente,

· mu, la media,

· alfa_i, la influencia del factor y

· e_ij, el error experimental.

Así como está autorizado usar el modelo de regresión, es equivalente usar el modelo de análisis de la varianza, que contrasta la incidencia del factor con respecto a la incidencia del error experimental.

EJEMPLO NUMÉRICO

Repitamos tres veces un ensayo con un único factor, temperatura, en dos niveles,

· 0 (baja temperatura, digamos 105º) y

· 1 (alta temperatura, 110º)

Las eficiencias ("OMEGA") obtenidas en las seis corridas (que se estiman suficientes para conocer el error experimental), son:

-----------	Nivel 0	Nivel 1
Réplica 1	79	90
Réplica 2	80	91
Réplica 3	81	89

      Niveles  i = 0, 1

      Réplicas j = 0,1,2

A simple vista ya se puede analizar este sencillo caso, donde no cabe duda que es preferible usar 110º en lugar de 105º. Pero para aplicar las fórmulas previas, podemos resolver el problema por análisis de la regresión y luego por análisis de la varianza.

Prueba F sobre Beta

La prueba F o análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y más elaborados en la investigación moderna. El análisis de la varianza, no obstante su denominación se utiliza para probar hipótesis preferentes a las medias de población más que a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis de datos en diseños estadísticos muy complicados.

Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto.

Grupos	1	2	3	4	5
	102	103	100	108	121
s²	15	12	12	14	10

Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo a partir de la media total o global de todos los grupos, se conoce como varianza intergrupal, la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan en forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen a que grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales se denominan variación total. El meollo del análisis de varianza radica en el siguiente hecho: si los grupos son muestras aleatorias provenientes de la misma población, las varianzas, intergrupal e intragrupal, son estimaciones insesgadas de la misma varianza poblacional. Se prueba la significación de la diferencia de los 2 tipos mediante la prueba F.

Supuestos que fundamentan la aplicación de análisis de varianza.

Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos:

Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas.

La varianza de los subgrupos debe ser homogénea.

Las muestras que constituyen los grupos deben ser independientes. Amenos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razón de las varianzas inter e intra no adoptará la distribución F.

Coeficiente de correlación por calificación

La correlación es la medida en que dos variables están relacionadas. Puede ser que la relación sea lineal, directamente proporcional, inversamente proporcional, etc.

Si el coeficiente de correlación es muy bajo, significa que las variables no tienen relación.

A menudo encontramos relaciones entre dos o más variables. Así, si una persona es jugador de baloncesto, pensamos que probablemente será muy alta, o si alguien tiene un alto coeficiente intelectual pensamos que probablemente obtiene buenas calificaciones en matemáticas y, en general, en el resto de materias, o tendemos a pensar que a mayor altura más pesará una persona. Es decir, establecemos que existe relación entre diferentes variables llegando a intuir, incluso, cuándo ésta relación es muy fuerte (el caso del jugador de baloncesto y la altura), o es más débil (quizás los que tienen un alto coeficiente intelectual encuentren antes trabajo), o incluso podemos pensar que no existe ninguna relación (las personas altas tienen mayor coeficiente intelectual que las bajas).

La pregunta a la que trataremos de responder en este tema es ¿en qué medida están relacionadas dos variables?. Conociendo el valor de una de ellas ¿hasta qué punto puedo predecir el valor de la otra?.

Cuando intentamos medir esa relación, decimos que estamos midiendo la correlación entre las variables.

Cuando se trata de dos variables solamente, decimos que estudiamos una correlación simple, y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple.

La estadística descriptiva bivariada aborda el estudio de los sucesos en los que intervienen dos variables simultáneamente.

En muchos casos la relación entre determinadas variables no pueden medirse con una escala cuantitativa.

Por ejemplo: la relación entre el género y la ideología política.

Al no cuantificarse numéricamente las variables no se puede hablar de una correlación directa o inversa.

Por ejemplo: decir que a mayor género, mayor ideología política no tiene sentido.

Por lo tanto, cuando decimos que dos variables nominales X e Y están relacionadas, queremos decir que las proporciones de X (género: hombre, mujer) son diferentes en cada categoría de Y (ideología política: izquierda, derecha). Si X e Y no están relacionadas, entonces las proporciones de X serán iguales en las distintas categorías de Y.

A las frecuencias que esperaríamos obtener si X e Y estuvieran relacionadas se les denomina frecuencias observadas.

A las frecuencias que esperaríamos obtener si X e Y no estuvieran relacionadas se les denomina frecuencias esperadas.

CONCLUSIÓN

La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos; por otra parte las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante números. Son caracteres susceptibles de medición. Como por ejemplo, la estatura, el peso, el salario, la edad, etc.

La estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre variables los más usados son: presentación gráfica y tabulación.

Cuando determinada variable es causalmente dependiente de una o más variables distintas, el análisis de regresión clásico o "multivariate" es el método apropiado para descubrir si determinada variable es causalmente dependiente de una o más variables diferentes. El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889), partiendo de los análisis estadísticos de Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B).

Las predicciones pueden ser dos: las categóricas y las probabilísticas, las cuales son enunciaciones de valores de variables que se pronostican y que pueden ocurrir o no.

La regresión como una técnica estadística, una de ellas la regresión lineal simple y la regresión multifactorial, analiza la relación de dos o mas variables continuas, cuando analiza las dos variables a esta se el conoce como variable bivariantes que pueden corresponder a variables cualitativas, la regresión nos permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como variable explicativa, la regresión es una técnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede suceder.

INFOGRAFÍA

1. NOCIONES DE REGRESIÓN LINEAL

La estimación de los coeficientes de una regresión múltiple es un cálculo bastante complicado y laborioso, por lo que se requiere del empleo de programas de computación especializados.

http://www.monografias.com/trabajos28/nociones-regresion-lineal/nociones-regresion-lineal.shtml?interlink#m2

2. ESTADÍSTICA

Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo resultado) está caracterizada por un valor para cada condición.

http://www.hrc.es/bioest/estadis_1.html

3. CORRELACION Y MODELOS DE REGRESION LINEAL

La función densidad de probabilidad (fdp) para una variable aleatoria es una función a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable.

http://www.hrc.es/bioest/M_docente.html

4. ANALIZAR LAS RELACIONES ENTRE VARIABLES

La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. La intensidad de la asociación entre variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.

http://www2.uiah.fi/projects/metodi/280.htm#2muut

5. ESTADISTICA

La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

http://es.wikipedia.org/wiki/Regresión_(estadística)

6. TIPOS DE PREDICCIÓN.

En este link podemos encontrar los Tipos De Predicción, como lo son: • Según el horizonte:– A corto, medio o largo plazo – Longitud del plazo: concepto relativo

http://www.um.es/econometria/tecpre/teoria/introduccion.pdf

7. GREGRESIÓN Y CORRELACIÓN

Análisis de Correlacion- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml

8. COEFICIENTE DE DETERMINACIÓN

Dado que el coeficiente de determinación es un estadístico que sobreestima el verdadero valor del parámetro (Cramer, 1987) es una práctica habitual la obtención del “coeficiente de determinación corregido” (Wherry, 1931) ,

http://www.psico.uniovi.es/REMA/v9n2/a1/n9v2a1_3.htm

9. FUNCIONES ESTADÍSTICAS

Prueba F: Devuelve el resultado de una prueba F. Distr. Beta: Devuelve la función de distribución beta acumulativa

http://office.microsoft.com/es-es/excel/HP100791903082.aspx

10. ANÁLISIS DE CORRELACIÓN

El análisis de correlación se refiere a las técnicas usadas para medir el grado de relación entre variables. Por ejemplo, la estatura y el peso se encuentran relacionados: las personas más altas suelen pesar más que las más bajas. Pero la relación no es perfecta.

http://www.surveysystem.com/correlatione.htm

11. ESTADÍSTICA DESCRIPTIVA BIVARIADA

Cuando intentamos medir esa relación, decimos que estamos midiendo la correlación entre las variables. Cuando se trata de dos variables solamente, decimos que estudiamos una correlación simple, y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple. La estadística descriptiva bivariada aborda el estudio de los sucesos en los que intervienen dos variables simultáneamente.

http://www.uma.es/estudios/departamentos/psicobioymeto/docencia/lola/tema3.htm

12. CORRELACIÓN

Existen diversas técnicas de correlación. El Módulo opcional de Estadísticas incluye la clase más común, llamada correlación de Pearson o correlación de momento-producto. El módulo también incluye una variación de esta clase llamada correlación parcial. Esta última resulta útil cuando se desea observar la relación entre dos variables al limitar el efecto de una o dos variables. Al igual que todas las técnicas de estadística, la correlación sólo resulta apropiada para ciertas clases de datos.

http://www.surveysystem.com/correlatione.htm

BIBLIOGRAFÍA

Ø http://www.monografias.com/trabajos28/nociones-regresion-lineal/nociones-regresion-lineal.shtml?interlink#m2

Ø http://www.hrc.es/bioest/estadis_1.html

Ø http://campusvirtual.uma.es/est_fisio/apuntes/

Ø http://www.hrc.es/bioest/M_docente.html

Ø http://www.fisicanet.com.ar/matematica/estadisticas/ap07_regresion_y_correlacion.php

Ø http://www2.uiah.fi/projects/metodi/280.htm#2muut

Ø http://es.wikipedia.org/wiki/Regresión_(estadística)

Ø http://ciberconta.unizar.es/LECCION/REDES/180.HTM

Ø http://dialnet.unirioja.es/servlet/articulo?codigo=1033236

Ø http://www.um.es/econometria/tecpre/teoria/introduccion.pdf

Ø http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml

Ø http://www.uma.es/estudios/departamentos/psicobioymeto/docencia/lola/tema3.htm

Ø http://www.surveysystem.com/correlatione.htm

Ø http://europa.eu.int/en/comm/eurostat/research/isi/alpha/es/es67.htm

ASOCIACIÓN ENTRE VARIABLES

Tabulación

Presentación gráfica

Análisis de regresión

Análisis de Regresión

Supuestos de Regresión Lineal Clásica

Modelos de regresión

Regresión lineal

Proceso de estimación de la regresión lineal simple

Modelo de regresión

Ecuación de regresión

Parámetros desconocidos

Datos de la muestra

proporcionan estimados

Ecuación estimada de regresión

Estadísticos de la muestra

Líneas posibles de regresión en la regresión lineal simple

Sección A

Relación lineal positiva

Sección C

No hay relación

Sección B

Relación lineal negativa

Estimación de la ecuación de Regresión Simple

Mínimos cuadrados - Supuestos

Estimación de la variancia de los términos del error (σ²)

Yi - Ŷi = ei

Análisis de Variancia en el análisis de regresión

(Yi - Yi)

∑(Yi - Yi)²

Desarrollo formal de la partición

(Yi - Yi)

(Yi - Y)

=

(Ŷi - Y)

(Yi - Ŷi)

T

R

E

∑(Yi - Y)²

=

∑(Ŷi - Y)²

∑(Yi - Ŷi)²

SC tot

SC reg

SCer

Coeficiente de Determinación

Cálculo del R² a través de la siguiente fórmula

R2 = [∑(Ŷc - Y)²]/[∑(Ŷo - Y)²]

PREDICCION Y PRONOSTICACIÓN

Tipos de predicciones

Ejemplos De Predicción

ANALISIS DE CORRELACION

OMEGA = b0 + b1X

OMEGA = mu + alfai + e ij

gammaij = gammaij

Sumando y restando a la igualdad tanto el promedio de todas las n.m tentativas, gamman como el promedio de los m ensayos realizados en el nivel i del único factor, gamma., llegamos a que

gammaij = gamma.. + (gamma. - gamma..) + (gammaij> - gamma.)

Donde los tres sumandos que han quedado explícitos son, respectivamente,

· mu, la media,

· alfai, la influencia del factor y

· eij, el error experimental.

Así como está autorizado usar el modelo de regresión, es equivalente usar el modelo de análisis de la varianza, que contrasta la incidencia del factor con respecto a la incidencia del error experimental.

EJEMPLO NUMÉRICO

Repitamos tres veces un ensayo con un único factor, temperatura, en dos niveles,

· 0 (baja temperatura, digamos 105º) y

· 1 (alta temperatura, 110º)

Las eficiencias ("OMEGA") obtenidas en las seis corridas (que se estiman suficientes para conocer el error experimental), son:

A simple vista ya se puede analizar este sencillo caso, donde no cabe duda que es preferible usar 110º en lugar de 105º. Pero para aplicar las fórmulas previas, podemos resolver el problema por análisis de la regresión y luego por análisis de la varianza.

4. ANALIZAR LAS RELACIONES ENTRE VARIABLES

5. ESTADISTICA

10. ANÁLISIS DE CORRELACIÓN

BIBLIOGRAFÍA

Y_i - Ŷ_i = e_i

(Y_i - Y_i)

∑(Y_i - Y_i)²

(Y_i - Y_i)

(Y_i - Y)

(Ŷ_i - Y)

(Y_i - Ŷ_i)

∑(Y_i - Y)²

∑(Ŷ_i - Y)²

∑(Y_i - Ŷ_i)²

SC _tot

SC _reg

R² = [∑(Ŷ_c - Y)²]/[∑(Ŷ_o - Y)²]

OMEGA = b₀ + b₁X

OMEGA = mu + alfa_i + e _ij

gamma_ij = gamma_ij

Sumando y restando a la igualdad tanto el promedio de todas las n.m tentativas, gamma_n como el promedio de los m ensayos realizados en el nivel i del único factor, gamma_., llegamos a que

gamma_ij = gamma_.. + (gamma_. - gamma_..) + (gamma_ij> - gamma_.)

· alfa_i, la influencia del factor y

· e_ij, el error experimental.