Para volver al menú principal pulse sobre la palabra |
Esquema
1. Tablas
2. Distribuciones marginales
3. Distribuciones condicionadas
4. Independencia
5. Dependencia funcional.
6. Caso general
7. Distribuciones marginales y condicionadas. Relaciones entre sus características
8. Media marginal y medias condicionadas
9. Varianza marginal y varianza condicionadas
Características Globales de una distribución de dos variables.
1. Curvas de regresión
2. Razón de correlación
3. Propiedades de la curva de regresión.
4. Recta de mínimos cuadrados.
5. Comparación entre las razones de correlación y el coeficiente de correlación lineal.
Consideremos una población de N individuos descritos simultáneamente según dos caracteres A y B. Designemos por A1, A2, …, Ak las modalidades del carácter A y por B1, B2, …, Bp las modalidades del carácter B. Sean nij el número de individuos de la población que presentan a la vez la modalidad Ai del carácter A y la modalidad Bj del carácter B. Debido a que las modalidades son exhaustivas e incompatibles, se tiene:
La tabla estadística que describe a los individuos, es una tabla de doble entrada, donde figuran en las filas las modalidades de A y en las columnas las de B.
|
B1 |
B2 |
… |
Bp |
Total |
A1 |
n11 |
n12 |
|
n1p |
n1. |
A2 |
n21 |
n22 |
|
n2p |
n2. |
… |
… |
… |
… |
… |
… |
Ak |
nk1 |
nk2 |
… |
nkp |
nk. |
Total |
n.1 |
n.2 |
… |
n.p |
n.. |
Donde:
Consideremos la columna marginal de la tabla de doble entrada. Las frecuencias absolutas ni. definen lo que se llama distribución marginal según el carácter A. Es una distribución de un solo carácter.
La frecuencia relativa de la modalidad Ai es fi.= ni. /N. La suma de las frecuencias relativas marginales es la unidad.
Modalidades del Carácter A |
Frecuencias Absolutas |
Frecuencias Relativas. |
A1 |
n1. |
f1. |
… |
… |
… |
Ai |
ni. |
fi. |
… |
… |
… |
Ak |
nk. |
fk. |
Total |
N |
1 |
Análogamente se define la distribución marginal del carácter B.
Consideremos los n.j individuos que presentan la modalidad Bj del carácter B. La j-ésima columna de la tabla de doble entrada describe esta subpoblación según el carácter A: nij individuos en n.j presentan la modalidad Ai del carácter A. Se dice también que la frecuencia de la modalidad Ai condicionada por Bj es igual a:
fij=nij/n.j
La tabla estadística de la distribución de A condicionada por Bj tiene la forma siguiente:
Modalidades del carácter A |
Frecuencias Absolutas |
Frecuencias Relativas |
A1 |
n1j |
f1j |
… |
… |
… |
Ai |
nij |
fij |
… |
… |
… |
Ak |
nkj |
fkj |
Totales |
n.j |
1 |
Análogamente se define la distribución condicionada de B por Ai.
A es independiente de B si las distribuciones condicionadas (A/Bj) son idénticas entre sí, no dependen de j. Por ejemplo:
|
B1 |
B2 |
B3 |
B4 |
Total |
A1 |
3 |
5 |
2 |
4 |
14 |
A2 |
6 |
10 |
4 |
8 |
28 |
A3 |
12 |
20 |
8 |
16 |
56 |
Total |
21 |
35 |
14 |
28 |
98 |
Se tiene:
Por otra parte, si las fracciones son iguales entre sí, también lo son a la fracción que se obtiene sumando los numeradores y denominadores.
,
de donde fij=fi..
Así, si A es independiente de B, las distribuciones condicionadas (A/Bj) son idénticas a la distribución marginal de A: las columnas de la tabla de doble entrada son proporcionales entre sí y proporcionales a la columna marginal.
Consideremos por otra parte la relación:
,
de donde se obtiene:
.
Como A es independiente de B, se tiene:
por tanto:
de :
se deduce:
de donde se obtiene:
y por consiguiente B es independiente de A. Es decir, la relación de independencia es recíproca.
Las frecuencias absolutas de las condicionadas son proporcionales a las frecuencias absolutas de las marginales.
A depende funcionalmente de B si a cada modalidad Bj
de B corresponde una única modalidad de A. Es decir, para cualquier j es fij=0
salvo para un i,
i=j(j) donde fij=f.j
Así, en cada columna, un término y solo uno es distinto de cero. La dependencia funcional no es recíproca. Puede haber varios términos no nulos en una misma fila.
Cuando en cada fila y en cada columna figura uno y solo un término de la tabla no nulo, la dependencia es recíproca. Ello requiere que A y B tengan el mismo número de modalidades.
La independencia y dependencia funcional son casos extremos que rara vez se encuentran en la práctica.
Si existe independencia entre A y B, saber que un individuo presenta la modalidad Bj del carácter B no nos dice nada sobre la modalidad Ai de A (Información nula).
Si el carácter A depende funcionalmente de B, el conocimiento de la modalidad Bj permite concluir la modalidad Ai: i=j(j) (Información total).
La práctica se encuentra entre los dos casos extremos : saber que un individuo presenta la modalidad Bj del carácter B nos da un elemento de información que restringe las modalidades posibles o probables de A.
Si la población estudiada es el conjunto de los matrimonios celebrados un año dado, descritos según las edades de los esposos ( 25 años por ejemplo), se posee una cierta información sobre la edad de la esposa ( es muy probable que tenga menos de 30 años). La información sería total si los hombres de 25 años se casasen con mujeres de la misma edad; sería nula si la distribución por edad de las esposas de los hombres de 25 años fuera la misma que la correspondiente a los hombres de 20 años, de 30 ó de 50 años.
La distribución marginal de X resulta de la composición de las distribuciones marginales de X / (Y=yj) representadas por las proporciones f.j.
La distribución marginal de Y resulta de la composición de las distribuciones condicionadas Y / (X=xi) representadas por las proporciones fi..
Por consiguiente son aplicables los resultados ya estudiados para composiciones.
La media de la composición es igual a la media ponderada por la proporciones de las medias subpoblacionales.
La varianza de una composición es igual a la media de las varianzas más la varianza de las medias.
Se llama curva de regresión de Y sobre X, la curva representativa de las medias condicionadas en función de los valores xi. Se trata de una verdadera curva si la variable X es continua o de una sucesión de puntos si la variable es discreta.
donde es la media de la distribución condicionada Y / (X=xi).
Si las variables X e Y son independientes, las distribuciones condicionadas son idénticas entre sí e idénticas a la distribución marginal correspondiente.
Por consiguiente las curvas de regresión son dos rectas paralelas a los ejes de coordenadas.
a) No recíproca.
Supongamos que la variable Y depende funcionalmente de X: a cada valor posible de xi de X corresponde un único valor yi de Y. La media de la variable condicionada Y / (X=xi) degenerada es igual a yi. Por consiguiente la curva de regresión de Y sobre X coincide con la curva de dependencia.
(…)
Cuando la curva de regresión de Y sobre X no es paralela al eje de abscisas , se dice que Y está correlada con X.
Observemos que la ausencia de correlación, en general, no es recíproca.
La noción de correlación se refiere exclusivamente a las medias condicionadas. Si por ejemplo se considera una población descrita según el salario y la edad, el salario está incorrelado con la edad, si el salario medio de las personas de 25 años, de las personas de 30 años, etc., es igual al salario medio del conjunto de la población. La independencia de los salarios con la edad se verificaría si la pirámide de los salarios de las personas de 25 años, de las personas de 30, etc., fuesen iguales e idénticos a los de la población global.
La intensidad de la correlación es tanto mayor cuanto más representativa de los valores yj de Y sea la curva de regresión de Y sobre x, es decir, que los puntos (xi, yj ) estén mas concentrados alrededor de la curva de regresión.
El estudio de la correlación de Y sobre x lleva consigo dos nociones:
· Curva de regresión de Y sobre x.
· Intensidad de la correlación de Y sobre x.
La varianza marginal de Y, se puede descomponer en dos sumandos, ambos positivos:
Se llama razón de correlación de Y sobre x, la proporción de la varianza marginal representada por la varianza de las medias condicionadas:
Análogamente, se define la razón de correlación de X sobre y . En general, las dos son diferentes y verifican:
al valor xi de X corresponde un único valor de y, por consiguiente Y depende funcionalmente de X. Recíprocamente.
Así, pues, la razón h2 y;x
es una medida de la
intensidad de la dependencia de Y sobre X
.
Análogamente para h2 x;y .
La curva de regresión de Y sobre X, y=j(x), es la que hace mínima la media – ponderada por las frecuencias – de los cuadrados de las desviaciones tomadas paralelamente al eje de ordenadas entre los diferentes puntos Mij de coordenadas (xi; yj) y la curva y=j(x).
El valor mínimo M es igual:
Análogamente para la curva de regresión de X sobre Y, x=y (y). El valor mínimo alcanzado es:
Si consideramos la recta más próxima a los puntos Mij medida por la media, ponderada por las frecuencias, de los cuadrados de las desviaciones tomadas paralelamente al eje de ordenadas y la recta; obtenemos, la recta de regresión de Y sobre X.
La recta mas próxima y=ax+b, hará mínima la cantidad:
de donde:
.
Esto expresa que la recta y=ax+b pasa por el centro de gravedad G( ).
de donde se obtiene
Llamando
coeficiente de correlación lineal, que es simétrico respecto de X y de Y, se puede escribir:
De donde se obtiene la recta:
Si permutamos los papeles entre X e Y, obtendremos la recta de mínimos cuadrados de las desviaciones tomadas paralelamente al eje de abscisas:
El valor mínimo alcanzado es m = (1-r2).V(Y), siendo r2 el cuadrado del coeficiente de correlación lineal de X e Y. Coeficiente que es simétrico con respecto a X y a Y.
Análogamente para le recta de regresión de X sobre Y. En este caso el mínimo alcanzado vale: m´= (1-r2).V(X)
Por tanto, se tiene:
(La igualdad entre los mínimos M y m se produce cuando la curva óptima es una recta. Análogamente para M´y m´).
Luego, dividiendo por V(Y) y V(X) respectivamente y operando, se tiene:
Si r=±1, entonces necesariamente
.
Se deduce también que el mínimo m=0 ;(m = (1-r2).V(Y)). Es decir, los puntos Mij está alineados, por tanto las variables X e Y se corresponden funcionalmente por una dependencia lineal.
Si
entonces necesariamente es r=0.
No se puede obtener nada de la igualdad a 0 de r ni de la igualdad a 1 de las razones de correlación.