1. Asociación entre variables

 

Si dos variables evolucionan de modo tal que en alguna medida se siguen entre ellas, podemos decir que existe una asociación o covarianza estadística entre ellas. Por ejemplo, la altura y peso de la gente están estadísticamente asociadas: aunque el peso de nadie esté causado por su altura ni la altura por el peso es, no obstante, habitual que las personas altas pesen más que las personas bajas. Por otro lado los datos habitualmente incluyen también excepciones, lo que significa que una asociación estadística es inherentemente estocástica.

La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simple son los medios de presentación gráfica y tabulación. La asociación entre las variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.

Si, al analizar los datos, se descubre alguna asociación entre las variables, esto no significa que necesariamente alguna de ellas dependa causalmente de la otra. Una fuerte correlación entre, digamos, A y B, puede deberse a cuatro razones alternativas:

A es la causa de B.
B es la causa de A.
Tanto A como B son causadas por C.
La asociación de A y B es causada por una pura coincidencia.
El investigador debe elegir deliberadamente una de estas alternativas. No hay medios en el análisis estadístico para la tarea de descubrir la explicación causal para una asociación estadística. En muchos casos, la teoría original del investigador puede proporcionar una explicación; si no, el investigador debe usar su sentido común para clarificar la causa.


A continuación mencionamos algunos métodos usuales de análisis estadístico que pueden usarse al estudiar la interdependencia entre una o más variables. Los métodos han sido dispuestos siguiendo a qué escala de medición corresponden la mayor parte de las variables.

 

- Escala nominal escala ordinal escala de intervalo escala de proporción
Métodos de presentación de datos - Tabulación ; Gráficos -
Medidas de asociación - Coeficiente de contingencia; Chi cuadrado -
- - correlación ordinal -
- - Correlación r de Pearson ; ANOVA
- - análisis de regresión ; análisis factorial

 

Cuando ambas variables son nominales y/u ordinales utilizamos las tablas de contingencia; cuando las dos son intervales empleamos la correlación. Pero, ¿cómo analizamos la relación bivariable cuando una es nominal/ordinal y la otra interval? En estos casos utilizamos el llamado análisis de la varianza (o ANOVA, del inglés Analysis of variance).

Tabulación
La tabulación es una forma habitual de presentar las asociaciones entre dos o más variables. Una tabla tiene la ventaja de que en ella puede disponerse bien una cantidad extensa de datos y se conservan las cifras exactas. Una desventaja es que una tabla grande no es ilustrativa: raras veces revela algo más que las más obvias regularidades o interdependencias entre datos. Algunas abreviaturas convencionales usadas en tablas se presentan bajo el encabezado Clasificar

Presentación gráfica
Los artefactos, como objetos de estudio, son presentados con frecuencia como imágenes, que son una forma de presentación gráfica. Si el investigador desea resaltar algunos rasgos comunes o patrones generales que ha encontrado en un grupo de objetos, puede combinar varios objetos en un gráfico.

Contingencia
Los medios disponibles para el análisis de los vínculos entre las variables dependen de con qué tipo de escala se han medido las variables. La variable decisiva es aquella cuya escala es la más rudimentaria.
El metro más rudimentario y general de la covarianza estadística de las variables es la contingencia. Puede aplicarse a todo tipo de variables, incluyendo aquellas que se han medido solo con una escala de clasificación, es decir, una escala de diferencia de cualidades. La contingencia suele ser analizada haciendo una tabla, pero también hay disponibles estadísticas especiales para indicar su intensidad:

- Las conexiones entre dos variables que se han medido con una escala de clasificación escala se describen con un cociente de contingencia o también con la estadística del Chi cuadrado.
- Si dos variables se han medido con una escala ordinal, su conexión puede describirse con una correlación ordinal.
Para variables sobre escalas aritméticas, el método usual de contingencia es la correlación estándar.
Las formulas para calcular las estadísticas de contingencia no se muestran aquí porque llevar a cabo los cálculos manualmente sería poco práctico y los investigadores habitualmente los hacen con un ordenador.

Correlación
Una forma habitual de expresar la fuerza de la asociación entre dos variables es la correlación del momento-producto o correlación de Pearson. Suele abreviarse con la letra r. La fórmula es bastante complicada pero raramente se necesita hoy, pues el algoritmo es ahora común incluso en las calculadoras de bolsillo. Aunque el algoritmo presupone que ambas variables deben ser medidas sobre una escala aritmética, en la práctica los investigadores suelen pasar por alto esta limitación.
 

Análisis de varianza
El análisis de varianza (en inglés ANOVA, ANalysis Of VAriance) examina dos o más conjuntos de mediciones, especialmente sus varianzas, e intenta detectar diferencias estadísticamente representativas entre los conjuntos. Estos conjuntos podrían ser, por ejemplo, reacciones medidas para dos grupos experimentales, y el investigador quiere examinar si hay una diferencia en las reacciones, tal vez causada por los distintos estímulos a los grupos.
El método de análisis de varianza se basa en el hecho matemáticamente probado de que hay una diferencia entre los grupos sólo si la varianza inter-grupos es mayor que la varianza intra-grupo.
El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la media de todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces la varianza de estas medias. Esa es la varianza inter-grupos.
Entonces calculamos la proporción de las dos cifras que acabamos de obtener, que es llamada F. En otras palabras,
= (varianza de las medias de grupo) / (media de las varianzas de grupo).
 

Análisis de regresión

El investigador suele tener razones teóricas o prácticas para creer que determinada variable es causalmente dependiente de una o más variables distintas. Si hay bastantes datos empíricos sobre estas variables, el análisis de regresión es un método apropiado para desvelar el patrón exacto de esta asociación.
El algoritmo de análisis de regresión construye una ecuación, que tiene el siguiente patrón. Además, da los parámetros a1, a2 etc. y b valores tales que la ecuación corresponde a los valores empíricos con tanta precisión como es posible.

y = a1x1 + a2x2 + a3x3 + ... + b

En la ecuación,
y = la variable dependiente
x1 , x2 etc. = variables independientes
a1 , a2 etc. = parámetros
b = coeficiente.

Si tenemos amplios datos con muchas variables, al principio del análisis no estaremos tal vez seguros de qué variables están mutuamente conectadas y cuales debieran así ser incluidas en la ecuación. Podríamos primero estudiar esto con el análisis de correlación, o podemos dejar al programa de análisis de regresión elegir las variables "correctas" (x1, x2 etc.) para la ecuación. "Correctas" son aquellas variables que mejoran la exactitud del ajuste entre la ecuación y los valores empíricos.

Análisis factorial


A veces tiene el investigador una gran cantidad de datos sobre numerosas variables diferentes con correlación entre ellas. Con ayuda del análisis factorial, tales datos suelen poder comprimirse y las variaciones presentarse a través de sólo unas pocas variables.
Como ejemplo, consideremos los datos de un cuestionario donde a un cierto número de sujetos de un test se les preguntó en qué grado se correspondían sus dormitorios personales con los adjetivos proporcionados por el investigador (mostrados en escalas "semánticas diferenciales"). El investigador ahora quiere descubrir si tras las estimaciones de los sujetos, hay algunas "variables de fondo" cuya medición directa por a través de medios lingüísticos no sería posible a causa de la carencia de adjetivos apropiados en el lenguaje. La hipótesis del investigador es que estas variables de fondo "aparecen" a través de los adjetivos usados en las escalas semánticas, habitualmente no con un adjetivo único, sino mediante un grupo de adjetivos con correlación entre ellos.
Con la ayuda de un análisis factorial, las variables de combinación o factores ocultos tras los atributos medidos pueden detectarse y especificarse, y el análisis también dice lo estrechamente que estos factores están vinculados con las variables originalmente verificadas.-- A veces se sitúa también una condición suplementaria sobre los factores, concretamente que no deben tener correlación alguna entre ellos y estén por lo tanto en "ángulo recto" uno con respecto a otro (= "rotación ortogonal" de los factores durante el análisis).

Un inconveniente del método del análisis factorial es que es demasiado fácil de usar para estudios que son formalmente correctos pero en la práctica absurdos, porque siempre presenta los resultados de una forma elegante y matemáticamente exacta, incluso cuando los factores obtenidos son tienen ningún contenido empírico sensato.

 

Página principal.

 

1

Hosted by www.Geocities.ws

1