UNIVERSIDAD YACAMBÚ

 

Trabajo 5
Estadística I

 

 

 

 

 

 

Autores:

Moira Soto

Ingrid Chávez

Shirley Alarcón

Rafael Rada

Luis Omar Sánchez

 

 

ASOCIACIÓN ENTRE VARIABLES

 

La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simples son los medios de presentación gráfica y tabulación. La intensidad de la asociación entre variables puede también describirse como una estadística especial.

 

En el análisis propiamente dicho de los datos, el propósito es extraer una invariante o estructura de  interés a partir de los datos. Si al analizar los datos, se descubre alguna asociación entre las variables, el investigador indagará  la razón de esta asociación en el mundo empírico y  le buscará la explicación a esta asociación utilizando la  descripción y aplicación .

 

 A continuación  métodos de análisis estadístico a través de los cuales se estudia  la interdependencia entre una o más variables.

Meta de análisis

Escala nominal

Escala ordinal

Escala de intervalo

Escala de proporción

Presentar datos y su estructura a grandes rasgos

Tabulación ; Gráficos

Medir la fuerza de la asociación entre dos variables

Coeficiente de contingencia

-

Correlación ordinal

-

-

Correlación r de Pearson

Encontrar qué variables entre varios son asociadas:

Calcular contingencias o correlaciones para todos los pares de variables ; análisis factorial

Transcribir una asociación estadística en una función matemática:

-

-

Análisis de regresión

 

Tabulación

La tabulación es una forma habitual de presentar las asociaciones entre dos o más variables. Una tabla tiene la ventaja de que en ella puede disponerse bien una cantidad extensa de datos y se conservan las cifras exactas. Una desventaja es que una tabla grande no es ilustrativa: raras veces revela algo más que las más obvias regularidades o interdependencias entre datos. Algunas abreviaturas convencionales usadas en tablas se presentan bajo el encabezado Clasificar.

Presentación gráfica

Los productos, como objetos de estudio, son presentados con frecuencia como imágenes, que son una forma de presentación gráfica.

 

 

 

 

 

Ejemplo:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 Dependiendo de los datos que el investigador desee ilustrar puede utilizar diferentes tipos de gráficos, por ejemplo:

 

Si el investigador desea resaltar algunos rasgos comunes o patrones generales que ha encontrado en un grupo de objetos, puede combinar varios objetos en un gráfico.

 

Si los datos consisten en pocas mediciones, es posible mostrarlos todos como un diagrama de dispersión. Podemos exhibir los valores de dos variables sobre los ejes de abscisas y ordenadas, y adicionalmente unas cuantas variables más utilizando los colores o formas de los puntos.

 

Si la variación es demasiado pequeña para que aparezca claramente, podemos darle énfasis eliminando partes de una o ambas escalas.  Simplemente eliminamos la parte que no nos interesa, sea por la parte superior o por la inferior.

 

Por otro lado, si el rango de variación de los datos es muy amplio, podemos plantearnos usar una escala logarítmica en uno o ambos ejes. La escala logarítmica es apropiada solamente en una escala de proporción.

Si son cientos de mediciones, es probable que no se puedan  mostrar todas en forma de diagrama de dispersión. Una posibilidad en este caso es clasificar los casos y presentarlos como un histograma.


El histograma puede adaptarse para presentar hasta cuatro o cinco variables. Esto se logra variando las anchuras de las columnas, sus colores, sus tramados y por una representación tridimensional. Todas estas variaciones se crean fácilmente con un programa de hoja de cálculo como Excel, pero no deben ser usadas sólo como adorno.

 

El investigador suele estar interesado en las relaciones de dos o más variables antes que en las parejas de mediciones tomadas separadamente. La forma normal de presentar dos o más variables interdependientes es la curva. Esto implica una variable continua (es decir, en que el número de posibles valores es infinito).

 

No  se deben producir  curvas a partir de mediciones que no son valores de la misma variable. Por ejemplo, los atributos de un objeto son variables diferentes.

 

MODELOS DE REGRESIÓN BIVARIABLE LINEAL

 

Análisis de regresión

El investigador suele tener razones teóricas o prácticas para creer que determinada variable es causalmente dependiente de una o más variables distintas. Si hay bastantes datos empíricos sobre estas variables, el análisis de regresión clásico o "multivariate" es un método apropiado para desvelar el patrón exacto de esta asociación.

 

El análisis de la regresión encuentra la ecuación lineal que se desvía lo menos posible de las observaciones empíricas.

 

Modelos de Regresión

 

Un modelo de regresión, es una manera de expresar dos ingredientes esenciales de una relación estadística:

-         Una tendencia de la variable dependiente Y a variar conjuntamente con la variación de la o las X de una manera sistemática

-         Una dispersión de las observaciones alrededor de la curva de relación estadística.

 

Estas dos características están implícitas en un modelo de regresión, postulando que:

 

En la población de observaciones asociadas con el proceso que fue muestreado, hay una distribución de probabilidades de Y para cada nivel de X.

 

Las medias de estas distribuciones varían de manera sistemática al variar X.

 

Representación gráfica del modelo de Regresión Lineal

Nota: en esta figura se muestran las distribuciones de probabilidades de Y para distintos valores de X

Análisis de Regresión

-         Objetivo: determinar la ecuación de regresión para predecir los valores de la variable dependiente (Y) en base a la o las variables independientes (X).

 

-         Procedimiento: seleccionar una muestra a partir de la población, listar pares de datos para cada observación; dibujar un diagrama de puntos para dar una imagen visual de la relación; determinar la ecuación de regresión.

Supuestos de Regresión Lineal Clásica

 

Cada error está normalmente distribuido con:

 

-         Esperanza de los errores igual a 0

-         Variancia de los errores igual a una constante σ².

-         Covariancia de los errores nulas para todo  i ≠ Ψ

 

 

El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889), partiendo de los análisis estadísticos de Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de más de mil registros de grupos familiares, se llegó a la conclusión de que los padres muy altos tenían una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban también una tendencia a regresar a la media. Galton generalizó esta tendencia bajo la "ley de la regresión universal": «Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.»

Modelos de regresión

Regresión lineal

Artículo principal:

·        Regresión lineal

·        Regresión lineal simple

Dadas dos variables (Y: variable dependiente; X: independiente) se trata de encontrar una función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = b0 + b1X

b0 (ordenada en el origen, constante)

b1 (pendiente de la recta)

A la cantidad e=Y-Ŷ se le denomina residuo o error residual.

Así, en el ejemplo de Pearson: Ŷ = 85 cm + 0'5X

Donde Ŷ es la altura predicha del hijo y X la altura del padre: En media, el hijo gana 0,5 cm. por cada cm. del padre.

 

ESTIMACIÓN DE PARÁMETROS DE REGRESIÓN

En estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.

En su versión más simple, una estimación de la media de una determinada característica de una población de tamaño N sería la media de esa misma característica para una muestra de tamaño n.

Variables independientes (predictoras, explicativas exógenas). Son las variables que proveen las bases para estimar.

Regresión simple: interviene una sola variable independiente

Regresión múltiple: intervienen dos o más variables independientes.

Regresión lineal: la función es una combinación lineal de los parámetros.

Regresión no lineal: la función que relaciona los parámetros no es una combinación lineal

Proceso de estimación de la regresión lineal simple

Modelo de regresión

y = β0+ β1x + ε

Ecuación de regresión

E(y) = β0+ β1x

Parámetros desconocidos

β01

Datos de la muestra

x

y

x1
x2
.
.
.
xn

y1
y2
.
.
.
yn

b0 y b1

proporcionan estimados

β0 y β1

Ecuación estimada de regresión

y = b0+b1x

Estadísticos de la muestra

b0.b1

Líneas posibles de regresión en la regresión lineal simple

Sección A

Relación lineal positiva

Sección C

No hay relación

Sección B

Relación lineal negativa

Estimación de la ecuación de Regresión Simple

Y´ = a + b.X, donde:

- es el valor estimado de Y para distintos X.

- a es la intersección  o el valor estimado de  Y cuando X=0

- b es la pendiente de la línea, o el cambio promedio de para cada cambio en una unidad de X

- el principio de mínimos cuadrados es usado para obtener  a y b:

a = (∑Y)/n - b.(∑X)/n

Mínimos cuadrados - Supuestos

El modelo de regresión es lineal en los parámetros.

Los valores de X son fijos en muestreo repetido.

El valor medio de la perturbación εi es igual a cero.

Homocedasticidad o igual variancia de εi.

No autocorrelación entre las perturbaciones.

La covariancia entre εi y Xi es cero.

El número de observaciones n debe ser mayor que el número de parámetros a estimar.

Variabilidad en los valores de X.

El modelo de regresión está correctamente especificado.

No hay relaciones lineales perfectas entre las explicativas.

Estimación de la variancia de los términos del error (σ²)

Debe ser estimada por varios motivos

Para tener una indicación de la variabilidad de las distribuciones de probabilidad de Y.

Para realizar inferencias con respecto a la función de regresión y la predicción de Y.

La lógica del desarrollo de  un estimador de σ² para el modelo de regresión es la misma que cuando se muestrea una sola población

La variancia de cada observación Yi es σ²,la misma que la de cada término del error

Dado que los Yi provienen de diferentes distribuciones de probabilidades con medias diferentes que dependen del nivel de X, la desviación de una observación Yi debe ser calculada con respecto a su propia media estimada Yi.

Yi - Ŷi = ei

Por tanto, las desviaciones son los residuales

Y la suma de cuadrados es:

La suma de cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se tuvieron que estimar dos parámetros.

Por lo tanto, las desviaciones al cuadrado dividido por los grados de libertad, se denomina cuadrados medios

Donde CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador insesgado de σ²

Análisis de Variancia en el análisis de regresión

El enfoque desde el análisis de variancia se basa en la partición de sumas de cuadrados y grados de libertad asociados con la variable respuesta Y.

La variación de los Yi se mide convencionalmente en términos de las desviaciones

(Yi - Yi)

La medida de la variación total SC tot, es la suma de las desviaciones al cuadrado

∑(Yi - Yi

Desarrollo formal de la partición

Consideremos la desviación

(Yi - Yi)

Podemos descomponerla en

(Yi - Y)

=

i - Y)

+

(Yi - Ŷi)

T

 

R

 

E

 

(T):   desviación total

(R): es la desviación del valor ajustado por la  regresión con respecto a la media general

(E):   es la desviación de la observación con respecto a la línea de regresión

Si consideremos todas las observaciones y elevamos al cuadrado para que los desvíos no se anulen

∑(Yi - Y)²

=

∑(Ŷi - Y)²

+

∑(Yi - Ŷi

SC tot

 

SC reg

 

SCer

(SC tot): Suma de cuadrados total

(SC reg): Suma de cuadrados de la regresión

(SCer):  Suma de cuadrados del error

Dividiendo por los grados de libertad, (n-1), (k) y

(n-2), respectivamente cada suma de cuadrados, se obtienen los cuadrados medios del análisis de variancia.

Coeficiente de Determinación

Coeficiente de Determinación, R2 - es la proporción de la variación total en la variable dependiente Y que es explicada o contabilizada por la variación en la variable independiente X.

- El  coeficiente de determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y 1.

Cálculo del R² a través de la siguiente fórmula

R2 = [∑(Ŷc - Y)²]/[∑(Ŷo - Y)²]

 

PREDICCION Y PRONOSTICACIÓN

 

Tipos de predicciones

 

Existen dos tipos de 5 categóricas. Consisten en afirmaciones que indican que ciertos eventos (o valores de variables) particulares van a ocurrir o no - las predicciones se indican sin cualidades. Por ejemplo, "esta noche va a llover" o "mañana la temperatura subirá hasta 25°C".


 
Predicciones probabilistas. Consisten en afirmaciones sobre la probabilidad de que ocurra un evento. Por ejemplo, "esta noche hay un 80% de probabilidad de que llueva" o "hay un 10% de probabilidad de que la temperatura suba más de 3°C sobre la normal".

Nótese que esos dos tipos de predicciones están relacionados: las predicciones categóricas son de hecho predicciones probabilistas en las que las únicas probabilidades que se utilizan son 0 y 1.

Ejemplos De Predicción

 

• Ventas por una empresa para comprobar nivel de stocks

 

• Rentabilidad de una inversión para determinar si buena inversión

 

• Ventas de un nuevo producto para decidir su producción

 

• Efectos de una medida de política económica

 

• Población estudiantil de aquí a 15 años, para construcción colegios

 

• Tipo de interés para decidir qué tipo de préstamo escoger

 

 

 

 

 

 

 

 

ANALISIS DE CORRELACION

 

 Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables.


El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

 

 

1.              Diagrama de Dispersión.- es aquel grafico que representa la relación entre dos variables.
Variable Dependiente.- es la variable que se predice o calcula. Cuya representación es "Y"
Variable Independiente.- es la variable que proporciona las bases para el calculo. Cuya representación es: X1,X2,X3.......
Coeficiente de Correlación.- Describe la intensidad de la relación entre dos conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de la relación lineal entre dos variables.
El valor del coeficiente de correlación puede tomar valores desde menos uno hasta uno, indicando que mientras más cercano a uno sea el valor del coeficiente de correlación, en cualquier dirección, más fuerte será la asociación lineal entre las dos variables. Mientras más cercano a cero sea el coeficiente de correlación indicará que más débil es la asociación entre ambas variables. Si es igual a cero se concluirá que no existe relación lineal alguna entre ambas variables.
Análisis de regresión.- Es la técnica empleada para desarrollar la ecuación y dar las estimaciones.
Ecuación de Regresión.- es una ecuación que define la relación lineal entre dos variables.
Ecuación de regresión Lineal: Y’ = a + Bx
Ecuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2 + b3X3...
Principio de Mínimos Cuadrados.- Es la técnica empleada para obtener la ecuación de regresión, minimizando la suma de los cuadrados de las distancias verticales entre los valores verdaderos de "Y" y los valores pronosticados "Y".
Análisis de regresión y Correlación Múltiple.- consiste en estimar una variable dependiente, utilizando dos o más variables independientes.

Ecuación de regresión Múltiple.- La forma general de la ecuación de regresión múltiple con dos variables independientes es:

Y' = a + b1X1 + b2X2

X1,X2 : Variables Independientes

a : es la ordenada del punto de intersección con el eje Y.
b1 : Coeficiente de Regresión (es la variación neta en Y por cada unidad de

variación en X1.).
b2 : Coeficiente de Regresión (es el cambio neto en Y para cada cambio

unitario en X2).

Prueba Global.- esta prueba investiga básicamente si es posible que todas las variables independientes tengan coeficientes de regresión neta iguales a 0.

2.              Desarrollo de un Caso.
Una agencia de Viajes desea saber la relación que hay entre las ventas, el presupuesto destinado a publicidad, y las comisiones de los vendedores para esto presenta los siguientes datos. Realice los análisis respectivos.

 

Y

X1

X2

AÑO

VENTAS

GASTOS DE PUBLICIDAD

COMISIONES DE VENDEDORES

2000

264000

550

15840

2001

384000

590

19250

2002

400200

680

26013

2003

422400

700

16896

2004

543000

750

16290

3.              ANÁLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad

4.              2.- Comisión de vendedores

5.              Variable dependiente:
- Ventas

Utilizando el Excel obtenemos los siguientes datos.

Estadísticas de la Regresión

Coeficiente de correlación múltiple

0.92092

Coeficiente de determinación R2

0.84810

R2 ajustado

0.69619

Error típico

54887.83156

Observaciones

5

De aquí se puede decir:
- De acuerdo al valor del coeficiente dee correlación múltiple, podemos afirmar que la variable X1 (Gastos de Publicidad) y X2 (Comisión de vendedores) se encuentran asociadas en forma directa de una manera muy fuerte con la variable dependiente Ventas, en un 92%.
- De acuerdo al Coeficiente de determinaacción R2, podemos decir que el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las comisiones de los vendedores.

A N Á L I S I S D E V A R I A N Z A

 

Grados de libertad

Suma de cuadrados

Prom. de los cuadrados

F

Valor crítico de F

Regresión

2

33640459893

16820229947

5.5832

0.15190282

Residuos

2

6025348107

3012674053

 

 

Total

4

39665808000

 

 

 

 

 

Coeficientes

Error típico

Estadístico t

Probab.

Inf. 95%

Sup. 95%

Inferior 95.0%

Sup. 95.0%

Intercepción

-289315.16

242459.39

-1.193

0.35513

-1332534.446

753904.118

-1332534.446

753904.118

GSTOS DE PUBLICID.

1123.49

336.22

3.342

0.07908

-323.1275965

2570.108

-323.128

2570.108

COM. DE VENDED.

-2.27

6.55

-0.346

0.76245

-30.45400257

25.922

-30.454

25.922

 


De aquí se desprende la ecuación de regresión múltiple:

Y = - 289315 + 1123 X1 - 2.27 X2

 

 

 

EL COEFICIENTE DE DETERMINACION O ESTADISTICA R2

  

El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

 

 

Algunas otras formas de presentar el coeficiente de determinación son:

 

Algunas de las equivalencias anteriores pueden verse a partir de la demostración de .

El coeficiente de determinación múltiple, es una generalización del valor de definida en la lección de R cuadrado definida para una línea recta.

 

 

Utilidad

 

Se utiliza para medir la reducción en la variabilidad total de debido a la inclusión de las variables regresoras . Un valor grande de no necesariamente implica que el modelo es bueno. Adicionar variables al modelo siempre incrementa el valor de , ya sea que las variables contribuyan o no al modelo. Es posible que modelos con valor de grande sean malos en la predicción o estimación.

 

 

análisis de varianza en regresión lineal  

 

Cualquiera que sea el origen de los datos experimentales que deseamos analizar para extraer conclusiones prácticas (p.ej., planillas de operación, ensayos preprogramados intencionalmente, etc.) debemos recurrir a la estadística para que nos oriente en la tarea. La forma más poderosa, quizás, de analizar estos datos es mediante los dos tipos de análisis mencionados en el título. Ambos tipos están ligados entre sí por una teoría coherente que permite transformar uno de los dos tipos de análisis en el otro.

 

Empecemos por el modelo más simple. Sea un modelo lineal y de un único factor X. Este modelo lineal, llamado también de primer orden, resulta ser

 

OMEGA = b0 + b1X

 

Modelo denominado de regresión, donde OMEGA es el criterio a maximizar, b0 es la ordenada al origen y b1 es la pendiente de la recta. Ya que las incógnitas o parámetros b0 y b1 son solamente dos, nos alcanzan dos niveles distintos para la variable X para identificarlos. Sin embargo, habrá que repetirlos para no dejarnos confundir por el error experimental.

 

Este caso sencillo se puede mirar también desde otra óptica. Un modelo equivalente, denominado de análisis de la varianza, es el de escribir

OMEGA = mu + alfai + e ij

 

Donde mu = el valor medio del ensayo, alfa es la incidencia sobre los resultados del factor X que estamos midiendo y e es el error experimental.

 

Para entender este modelo afirmemos que el resultado de una tentativa en el nivel i durante la replicación j , es:

gammaij = gammaij

     i = 1,2,.., n (niveles) y
     j = 1,2,... m (replicaciones)

Sumando y restando a la igualdad tanto el promedio de todas las n.m tentativas, gamman como el promedio de los m ensayos realizados en el nivel i del único factor, gamma., llegamos a que

gammaij = gamma.. + (gamma. - gamma..) + (gammaij> - gamma.)

Donde los tres sumandos que han quedado explícitos son, respectivamente,

·                     mu, la media,

·                     alfai, la influencia del factor y

·                     eij, el error experimental.

Así como está autorizado usar el modelo de regresión, es equivalente usar el modelo de análisis de la varianza, que contrasta la incidencia del factor con respecto a la incidencia del error experimental.

EJEMPLO NUMÉRICO

Repitamos tres veces un ensayo con un único factor, temperatura, en dos niveles,

·                     0 (baja temperatura, digamos 105º) y

·         1 (alta temperatura, 110º)

Las eficiencias ("OMEGA") obtenidas en las seis corridas (que se estiman suficientes para conocer el error experimental), son:

-----------

  Nivel 0

   Nivel 1

  Réplica 1

    79

    90

  Réplica 2

    80

    91

  Réplica 3

    81

    89

      Niveles  i = 0, 1
      Réplicas j = 0,1,2

A simple vista ya se puede analizar este sencillo caso, donde no cabe duda que es preferible usar 110º en lugar de 105º. Pero para aplicar las fórmulas previas, podemos resolver el problema por análisis de la regresión y luego por análisis de la varianza.

 

Prueba F sobre Beta   

 

La prueba F o análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y más elaborados en la investigación moderna. El análisis de la varianza, no obstante su denominación se utiliza para probar hipótesis preferentes a las medias de población más que a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis de datos en diseños estadísticos muy complicados.

 

Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto.

Grupos

1

2

3

4

5

102

103

100

108

121

s2

15

12

12

14

10

 

Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo a partir de la media total o global de todos los grupos, se conoce como varianza intergrupal, la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan en forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen a que grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales se denominan variación total. El meollo del análisis de varianza radica en el siguiente hecho: si los grupos son muestras aleatorias provenientes de la misma población, las varianzas, intergrupal e intragrupal, son estimaciones insesgadas de la misma varianza poblacional. Se prueba la significación de la diferencia de los 2 tipos mediante la prueba F.

 

Supuestos que fundamentan la aplicación de análisis de varianza.

 

Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos:

Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a partir de poblaciones normalmente distribuidas.

 

La varianza de los subgrupos debe ser homogénea.

 

Las muestras que constituyen los grupos deben ser independientes. Amenos de que las muestras sean independientes, y que por lo tanto, generen estimaciones de varianza independientes, la razón de las varianzas inter e intra no adoptará la distribución F.

 

Coeficiente de correlación por calificación  

 

La correlación es la medida en que dos variables están relacionadas. Puede ser que la relación sea lineal, directamente proporcional, inversamente proporcional, etc.


Si el coeficiente de correlación es muy bajo, significa que las variables no tienen relación.

 

A menudo encontramos relaciones entre dos o más variables.  Así, si una persona es jugador de baloncesto, pensamos que probablemente será muy alta, o si alguien tiene un alto coeficiente intelectual pensamos que probablemente obtiene buenas calificaciones en matemáticas y, en general, en el resto de materias, o tendemos a pensar que a mayor altura más pesará una persona.  Es decir, establecemos que existe relación entre diferentes variables  llegando a intuir, incluso, cuándo ésta relación es muy fuerte (el caso del jugador de baloncesto y la altura), o es más débil (quizás los que tienen un alto coeficiente intelectual encuentren antes trabajo), o incluso podemos pensar que no existe ninguna relación (las personas altas tienen mayor coeficiente intelectual que las bajas).

 

La pregunta a la que trataremos de responder en este tema es ¿en qué medida están relacionadas dos variables?. Conociendo el valor de una de ellas ¿hasta qué punto puedo predecir el valor de la otra?.

 

Cuando intentamos medir esa relación, decimos que estamos midiendo la correlación entre las variables.

 

Cuando se trata de dos variables solamente, decimos que estudiamos una correlación simple, y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple.

 

La estadística descriptiva bivariada aborda el estudio de los sucesos en los que intervienen dos variables simultáneamente.

En muchos casos la relación entre determinadas variables no pueden medirse con una escala cuantitativa.

Por ejemplo:  la relación entre el género y la ideología política. 

 

Al no cuantificarse numéricamente las variables no se puede hablar de una correlación directa o inversa.

 

Por ejemplo:  decir que a mayor género, mayor ideología política no tiene sentido. 

 

Por lo tanto, cuando decimos que dos variables nominales X e Y están relacionadas, queremos decir que las proporciones de X (género:  hombre, mujer) son diferentes en cada categoría de Y (ideología política:  izquierda, derecha).  Si X e Y no están relacionadas, entonces las proporciones de X serán iguales en las distintas categorías de Y.

A las frecuencias que esperaríamos obtener si X e Y estuvieran relacionadas se les denomina frecuencias observadas.

A las frecuencias que esperaríamos obtener si X e Y no estuvieran relacionadas se les denomina frecuencias esperadas.

 

CONCLUSIÓN

La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos; por otra parte las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante números. Son caracteres susceptibles de medición. Como por ejemplo, la estatura, el peso, el salario, la edad, etc.

 

La estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre variables los más usados son: presentación gráfica y tabulación.

 

 Cuando determinada variable es causalmente dependiente de una o más variables distintas,  el análisis de regresión clásico o "multivariate" es el método apropiado para descubrir si determinada variable es causalmente dependiente de una o más variables diferentes. El término regresión fue introducido por Francis Galton en su libro Natural inheritance (1889), partiendo de los análisis estadísticos de Karl Pearson. Su trabajo se centró en la descripción de los rasgos físicos de los descendientes (variable A) a partir de los de sus padres (variable B).

 

Las predicciones  pueden ser dos: las categóricas y las probabilísticas, las cuales son enunciaciones de valores de variables  que se pronostican y que pueden ocurrir o no.

 

El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como el cociente entre la variabilidad explicada por la regresión y la variabilidad total, esto es:

 

La regresión como una técnica estadística, una de ellas la regresión lineal simple y la regresión multifactorial, analiza la relación de dos o mas variables continuas, cuando analiza las dos variables a esta se el conoce como variable bivariantes que pueden corresponder a variables cualitativas, la regresión nos permite el cambio en una de las variables llamadas respuesta y que corresponde a otra conocida como variable explicativa, la regresión es una técnica utilizada para inferir datos a partir de otros y hallar una respuesta de lo que puede suceder.

 

INFOGRAFÍA

 

1.      NOCIONES DE REGRESIÓN LINEAL

La estimación de los coeficientes de una regresión múltiple es un cálculo  bastante complicado y laborioso, por lo que se requiere del empleo de programas de computación especializados.

http://www.monografias.com/trabajos28/nociones-regresion-lineal/nociones-regresion-lineal.shtml?interlink#m2

 

 

2.      ESTADÍSTICA

Una variable no aleatoria (asociada al resultado de una experiencia que sí produce el mismo resultado) está caracterizada por un valor para cada condición.

http://www.hrc.es/bioest/estadis_1.html

 

 

3.      CORRELACION Y MODELOS DE REGRESION LINEAL

La función densidad de probabilidad (fdp) para una variable aleatoria es una función a partir de la cual se puede calcular la probabilidad de los distintos valores de la variable.

http://www.hrc.es/bioest/M_docente.html

 

 
4.      ANALIZAR LAS RELACIONES ENTRE VARIABLES

La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. La intensidad de la asociación entre variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.

http://www2.uiah.fi/projects/metodi/280.htm#2muut

 

5.      ESTADISTICA

La regresión estadística o regresión a la media es la tendencia de una medición extrema a presentarse más cercana a la media en una segunda medición. La regresión se utiliza para predecir una medida basándonos en el conocimiento de otra.

http://es.wikipedia.org/wiki/Regresión_(estadística)

 

 

6.      TIPOS DE PREDICCIÓN.

En este link podemos encontrar los Tipos De Predicción, como lo son: • Según el horizonte:– A corto, medio o largo plazo – Longitud del plazo: concepto relativo

http://www.um.es/econometria/tecpre/teoria/introduccion.pdf

 

 

7.      GREGRESIÓN Y CORRELACIÓN

Análisis de Correlacion- Es el conjunto de técnicas estadísticas empleado para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en determinar que tan intensa es la relación entre dos variables. Normalmente, el primer paso es mostrar los datos en un diagrama de dispersión.

http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml

 

 

8.      COEFICIENTE DE DETERMINACIÓN

Dado que el coeficiente de determinación es un estadístico que sobreestima el verdadero valor del parámetro (Cramer, 1987) es una práctica habitual la obtención del “coeficiente de determinación corregido” (Wherry, 1931) ,

http://www.psico.uniovi.es/REMA/v9n2/a1/n9v2a1_3.htm

 

 

9.      FUNCIONES ESTADÍSTICAS

Prueba F: Devuelve el resultado de una prueba F.  Distr. Beta: Devuelve la función de distribución beta acumulativa

http://office.microsoft.com/es-es/excel/HP100791903082.aspx

 

 

10. ANÁLISIS DE CORRELACIÓN

El análisis de correlación se refiere a las técnicas usadas para medir el grado de relación entre variables. Por ejemplo, la estatura y el peso se encuentran relacionados: las personas más altas suelen pesar más que las más bajas. Pero la relación no es perfecta.

http://www.surveysystem.com/correlatione.htm

 

 

11. ESTADÍSTICA DESCRIPTIVA BIVARIADA

Cuando intentamos medir esa relación, decimos que estamos midiendo la correlación entre las variables. Cuando se trata de dos variables solamente, decimos que estudiamos una correlación simple, y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple.  La estadística descriptiva bivariada aborda el estudio de los sucesos en los que intervienen dos variables simultáneamente.

http://www.uma.es/estudios/departamentos/psicobioymeto/docencia/lola/tema3.htm

 

 

12. CORRELACIÓN

Existen diversas técnicas de correlación. El Módulo opcional de Estadísticas incluye la clase más común, llamada correlación de Pearson o correlación de momento-producto. El módulo también incluye una variación de esta clase llamada correlación parcial. Esta última resulta útil cuando se desea observar la relación entre dos variables al limitar el efecto de una o dos variables. Al igual que todas las técnicas de estadística, la correlación sólo resulta apropiada para ciertas clases de datos.

http://www.surveysystem.com/correlatione.htm

 

 

 

BIBLIOGRAFÍA

 

 

Ø      http://www.monografias.com/trabajos28/nociones-regresion-lineal/nociones-regresion-lineal.shtml?interlink#m2

 

Ø      http://www.hrc.es/bioest/estadis_1.html

 

Ø      http://campusvirtual.uma.es/est_fisio/apuntes/

 

Ø      http://www.hrc.es/bioest/M_docente.html

 

Ø      http://www.fisicanet.com.ar/matematica/estadisticas/ap07_regresion_y_correlacion.php

 

Ø      http://www2.uiah.fi/projects/metodi/280.htm#2muut

 

Ø      http://es.wikipedia.org/wiki/Regresión_(estadística)

 

Ø      http://ciberconta.unizar.es/LECCION/REDES/180.HTM

 

Ø      http://dialnet.unirioja.es/servlet/articulo?codigo=1033236

 

Ø      http://www.um.es/econometria/tecpre/teoria/introduccion.pdf

 

 

Ø      http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml

 

Ø      http://www.uma.es/estudios/departamentos/psicobioymeto/docencia/lola/tema3.htm

 

Ø      http://www.surveysystem.com/correlatione.htm

 

Ø      http://europa.eu.int/en/comm/eurostat/research/isi/alpha/es/es67.htm

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Hosted by www.Geocities.ws

1 1