TEMA VI
CORRELACIÓN
Las distribuciones bidimensionales son
aquellas en las que se estudian simultáneamente dos variables de las múltiples
variables existentes en una población: ejemplo: edad y sexo de hospitalizados
en un momento dado, peso y altura de los estudiantes del curso de
Bioestadística virtual.
Para representar los datos obtenidos se
utiliza una tabla de doble
entrada o de correlación, en donde "x" representan una de las
variables y "y" la otra variable. En cada encuentro de un valor de
"x" con uno de "y" se ubican el número de veces que
aparecen estos. Ejemplo:
|
X/Y |
Y1 |
y2 |
y3 |
yn |
|
x1 |
x1,y1 |
x1,y2 |
x1,y3 |
x1,yn |
|
x2 |
x2,y1 |
x2,y2 |
x2y3 |
x2,yn |
|
x3 |
x3,y1 |
x3,y2 |
x3,y3 |
x3,yn, |
|
xn |
xn,y1, |
xn,y2 |
xn,y3 |
xn,yn |
Ejemplo: Supongamos el peso y la
estatura de 30 niños y niñas cursantes de una escuela de educación básica:
|
Alumno
1 |
1,25 |
32 |
Alumno
11 |
1,25 |
31 |
Alumno
21 |
1,25 |
33 |
|
Alumno
2 |
1,28 |
33 |
Alumno
12 |
1,28 |
35 |
Alumno
22 |
1,28 |
32 |
|
Alumno
3 |
1,27 |
31 |
Alumno
13 |
1,27 |
34 |
Alumno
23 |
1,27 |
34 |
|
Alumno
4 |
1,21 |
34 |
Alumno
14 |
1,21 |
33 |
Alumno
24 |
1,21 |
34 |
|
Alumno
5 |
1,22 |
32 |
Alumno
15 |
1,22 |
33 |
Alumno
25 |
1,22 |
35 |
|
Alumno
6 |
1,29 |
31 |
Alumno
16 |
1,29 |
31 |
Alumno
26 |
1,29 |
31 |
|
Alumno
7 |
1,30 |
34 |
Alumno
17 |
1,30 |
35 |
Alumno
27 |
1,30 |
34 |
|
Alumno
8 |
1,24 |
32 |
Alumno
18 |
1,24 |
32 |
Alumno
28 |
1,24 |
33 |
|
Alumno
9 |
1,27 |
32 |
Alumno
19 |
1,27 |
31 |
Alumno
29 |
1,27 |
35 |
|
Alumno
10 |
1,29 |
35 |
Alumno
20 |
1,29 |
33 |
Alumno
30 |
1,29 |
34 |
Esta
información se puede representar de un modo más organizado en la siguiente
tabla de correlación:
Tabla Nº 1
Peso y Estatura Estudiantes Educación Básica
|
Estatura / Peso |
31 kg |
32 kg |
33 kg |
34 kg |
35 kg |
|
1,21 cm |
0 |
0 |
1 |
2 |
0 |
|
1,22 cm |
0 |
1 |
1 |
0 |
1 |
|
1,23 cm |
0 |
0 |
0 |
0 |
0 |
|
1,24 cm |
0 |
2 |
1 |
0 |
0 |
|
1,25 cm |
1 |
1 |
1 |
0 |
0 |
|
1,26 cm |
0 |
0 |
0 |
0 |
0 |
|
1,27 cm |
2 |
1 |
0 |
2 |
1 |
|
1,28 cm |
0 |
1 |
1 |
0 |
1 |
|
1,29 cm |
3 |
0 |
1 |
1 |
1 |
|
1,30 cm |
0 |
0 |
0 |
2 |
1 |
Podemos observar que en cada casilla se
ubican las veces que se presenta los pares de valores.
Tal
como vimos en las distribuciones unidimensionales si una de las variables (o las
dos) presentan gran número de valores diferentes, y cada uno de ellos se repite
en muy pocas ocasiones, puede convenir agrupar los valores de dicha variable (o
de las dos) en tramos.
Si efectuamos el análisis de una
de las variables, independientemente del comportamiento de la otra, convertimos
el análisis en el de una distribución
marginal. Significa esto, que si es una distribución de dos dimensiones,
podemos analizar cada una de estos dos dimensiones por separado lo que nos produciría
dos distribuciones marginales, una de “x” y otra de “y”
Correlación: Cuando nos interesamos por
establecer relación entre variables, acudimos a las medidas de correlación, en
este curso nos dedicaremos a describir, en forma muy sucinta, El Coeficiente de
Correlación Lineal. Evidentemente que para establecer relación entre variables,
debemos observar cada variable dentro de un grupo de unidades. Este coeficiente de correlación nos permite medir el grado de
intensidad de relación entre las variables en estudio. Se emplea cuando la
correspondencia que puede existir entre las variables es lineal, significa
esto, que en su representación o diagrama de dispersión (serie sucesiva de
puntos que representan los valores de “x” y “y”) se asemejaría a una recta.
Ejemplo:
Coeficiente de Correlación lineal de Pearson (r): Nos indica la tendencia a relacionarse
linealmente, su formula es:
Sxy n xi yi -- (
xi )(
yi )
rxy = -------------; rxy
= --------------------------------------------------------------
Sx Sy {n
x2 – (
xi)2} {n
y2 – (
yi )2}
Propiedades:
1.
Es
adimensional
2.
Sólo
toma valores en + 1, -- 1
3.
Las
variable que no presentan relación tienden a 0
4.
La
correlación lineal perfecta entre dos variables es de + 1 o –1
5.
Cuanto
más cerca esté r de +1 o –1 mejor será el grado de relación lineal
Covarianza
de dos variables X e Y: La covarianza entre dos variables, Sxy nos
indica si la relación entre las dos variables es positiva o negativa. Se define
como la media de los productos de las desviaciones respecto a sus
correspondientes medias aritméticas, la formula de la covarianza es:
Sxy
= /n - 1
Donde: xi = valores
de la variable x
x = x barra, media aritmética de la variable x
yi = valores de la variable y
y = y barra. Media aritmética de la variable y
El
signo de la covarianza nos indica si la nube de puntos es creciente o no, pero
no nos indica nada sobre la intensidad de la relación
Ejercicios:
1)
Las siguientes calificaciones fueron obtenidas por 12 alumnos en un test de
habilidad numérica y otro de habilidad verbal: 5,8 – 3,6 – 7,8 – 4,5 – 8,9 –
2,6 – 10,8 – 6,5 – 8,11 – 7,7 – 9,8 – 11,10. Hallar el coeficiente de
correlación e interpretar su resultado.
2)
Las siguientes calificaciones corresponden a 50 alumnos y fueron obtenidas en
dos parciales de Estadística: 55, 57 – 18, 25 – 55, 56 64, 67 – 16, 20 – 58, 58
– 56, 59 – 58, 60 – 60, 62 – 14, 20 -61, 63 – 64, 65 – 64, 67 – 50, 47 – 64, 68
– 44, 45 – 48, 50 – 50, 53 – 64, 68 – 25, 27 – 30, 29 – 16, 24 – 64, 69 – 33,
34 – 59, 51 – 53, 54 – 60, 61 – 65, 66 – 60, 58 – 16, 20 – 40, 35 – 46, 46 –
20, 21 – 30, 32 – 22, 26 – 39, 37 – 55, 57 – 20, 23 – 38, 27 – 50, 47 – 49, 52
– 50, 51 – 57, 64 – 28, 29 – 28, 30 – 40, 36 – 20, 22 – 31, 33 – 18, 20 – 30,
31.
Hallar
el coeficiente de correlación e interpretar su resultado, tomando para la
variable X un intervalo de clase de 5, iniciando en 14; y para la variable Y un
intervalo de clase de 10, iniciando en 20.
3)
Hallar el coeficiente de correlación e interpretar su resultado para los datos
de la tabla 1, peso y estatura de los niños y niñas de educación básica.