1. Asociación entre variables
Si dos variables evolucionan de modo tal que en alguna medida se siguen entre ellas, podemos decir que existe una asociación o covarianza estadística entre ellas. Por ejemplo, la altura y peso de la gente están estadísticamente asociadas: aunque el peso de nadie esté causado por su altura ni la altura por el peso es, no obstante, habitual que las personas altas pesen más que las personas bajas. Por otro lado los datos habitualmente incluyen también excepciones, lo que significa que una asociación estadística es inherentemente estocástica.
La ciencia de la estadística ofrece numerosos métodos para revelar y presentar las asociaciones entre dos y hasta más variables. Los medios más simple son los medios de presentación gráfica y tabulación. La asociación entre las variables puede también describirse como una estadística especial, como el coeficiente de contingencia y una correlación para lo que hay varios métodos de análisis disponibles.
Si, al analizar los datos, se descubre alguna asociación entre las variables, esto no significa que necesariamente alguna de ellas dependa causalmente de la otra. Una fuerte correlación entre, digamos, A y B, puede deberse a cuatro razones alternativas:
A es la causa de B.
B es la causa de A.
Tanto A como B son causadas por C.
La asociación de A y B es causada por una pura coincidencia.
El investigador debe elegir deliberadamente una de estas alternativas. No hay medios en el análisis estadístico para la tarea de descubrir la explicación causal para una asociación estadística. En muchos casos, la teoría original del investigador puede proporcionar una explicación; si no, el investigador debe usar su sentido común para clarificar la causa.
A continuación mencionamos algunos métodos usuales de análisis estadístico que pueden usarse al estudiar la interdependencia entre una o más variables. Los métodos han sido dispuestos siguiendo a qué escala de medición corresponden la mayor parte de las variables.
- | Escala nominal | escala ordinal | escala de intervalo | escala de proporción |
---|---|---|---|---|
Métodos de presentación de datos | - Tabulación ; Gráficos - | |||
Medidas de asociación | - Coeficiente de contingencia; Chi cuadrado - | |||
- | - correlación ordinal - | |||
- | - | Correlación r de Pearson ; ANOVA | ||
- | - | análisis de regresión ; análisis factorial |
Cuando ambas variables son nominales y/u ordinales utilizamos las tablas de contingencia; cuando las dos son intervales empleamos la correlación. Pero, ¿cómo analizamos la relación bivariable cuando una es nominal/ordinal y la otra interval? En estos casos utilizamos el llamado análisis de la varianza (o ANOVA, del inglés Analysis of variance).
Tabulación
La tabulación es una forma habitual de presentar las asociaciones entre dos o
más variables. Una tabla tiene la ventaja de que en ella puede disponerse bien
una cantidad extensa de datos y se conservan las cifras exactas. Una
desventaja es que una tabla grande no es ilustrativa: raras veces revela algo
más que las más obvias regularidades o interdependencias entre datos. Algunas
abreviaturas convencionales usadas en tablas se presentan bajo el encabezado
Clasificar
Presentación gráfica
Los artefactos, como objetos de estudio, son presentados con frecuencia
como imágenes, que son una forma de presentación gráfica. Si el investigador
desea resaltar algunos rasgos comunes o patrones generales que ha encontrado
en un grupo de objetos, puede combinar varios objetos en un gráfico.
Contingencia
Los medios disponibles para el análisis de los vínculos entre las
variables dependen de con qué tipo de escala se han medido las variables. La
variable decisiva es aquella cuya escala es la más rudimentaria.
El metro más rudimentario y general de la covarianza estadística de las
variables es la contingencia. Puede aplicarse a todo tipo de variables,
incluyendo aquellas que se han medido solo con una escala de clasificación, es
decir, una escala de diferencia de cualidades. La contingencia suele ser
analizada haciendo una tabla, pero también hay disponibles estadísticas
especiales para indicar su intensidad:
- Las conexiones entre dos variables que se han medido con una escala de
clasificación escala se describen con un cociente de contingencia o también
con la estadística del Chi cuadrado.
- Si dos variables se han medido con una escala ordinal, su conexión puede
describirse con una correlación ordinal.
Para variables sobre escalas aritméticas, el método usual de contingencia es
la correlación estándar.
Las formulas para calcular las estadísticas de contingencia no se muestran
aquí porque llevar a cabo los cálculos manualmente sería poco práctico y los
investigadores habitualmente los hacen con un ordenador.
Correlación
Una forma habitual de expresar la fuerza de la asociación entre dos
variables es la correlación del momento-producto o correlación de Pearson.
Suele abreviarse con la letra r. La fórmula es bastante complicada pero
raramente se necesita hoy, pues el algoritmo es ahora común incluso en las
calculadoras de bolsillo. Aunque el algoritmo presupone que ambas variables
deben ser medidas sobre una escala aritmética, en la práctica los
investigadores suelen pasar por alto esta limitación.
Análisis de varianza
El análisis de varianza (en inglés ANOVA, ANalysis Of VAriance) examina
dos o más conjuntos de mediciones, especialmente sus varianzas, e intenta
detectar diferencias estadísticamente representativas entre los conjuntos.
Estos conjuntos podrían ser, por ejemplo, reacciones medidas para dos grupos
experimentales, y el investigador quiere examinar si hay una diferencia en las
reacciones, tal vez causada por los distintos estímulos a los grupos.
El método de análisis de varianza se basa en el hecho matemáticamente probado
de que hay una diferencia entre los grupos sólo si la varianza inter-grupos es
mayor que la varianza intra-grupo.
El análisis se inicia calculando la varianza intra-grupo para cada grupo, y la
media de todas estas varianzas de grupo.
El siguiente paso es calcular la media para cada grupo, y entonces la varianza
de estas medias. Esa es la varianza inter-grupos.
Entonces calculamos la proporción de las dos cifras que acabamos de obtener,
que es llamada F. En otras palabras,
= (varianza de las medias de grupo) / (media de las varianzas de grupo).
Análisis de regresión
El investigador suele tener
razones teóricas o prácticas para creer que determinada variable es
causalmente dependiente de una o más variables distintas. Si hay bastantes
datos empíricos sobre estas variables, el análisis de regresión es un método
apropiado para desvelar el patrón exacto de esta asociación.
El algoritmo de análisis de regresión construye una ecuación, que tiene el
siguiente patrón. Además, da los parámetros a1, a2 etc. y b valores tales que
la ecuación corresponde a los valores empíricos con tanta precisión como es
posible.
y = a1x1 + a2x2 + a3x3 + ... + b
En la ecuación,
y = la variable dependiente
x1 , x2 etc. = variables independientes
a1 , a2 etc. = parámetros
b = coeficiente.
Si tenemos amplios datos con muchas variables, al principio del análisis no
estaremos tal vez seguros de qué variables están mutuamente conectadas y
cuales debieran así ser incluidas en la ecuación. Podríamos primero estudiar
esto con el análisis de correlación, o podemos dejar al programa de análisis
de regresión elegir las variables "correctas" (x1, x2 etc.) para la ecuación.
"Correctas" son aquellas variables que mejoran la exactitud del ajuste entre
la ecuación y los valores empíricos.
Análisis factorial
A veces tiene el investigador una gran cantidad de datos sobre numerosas
variables diferentes con correlación entre ellas. Con ayuda del análisis
factorial, tales datos suelen poder comprimirse y las variaciones presentarse
a través de sólo unas pocas variables.
Como ejemplo, consideremos los datos de un cuestionario donde a un cierto
número de sujetos de un test se les preguntó en qué grado se correspondían sus
dormitorios personales con los adjetivos proporcionados por el investigador
(mostrados en escalas "semánticas diferenciales"). El investigador ahora
quiere descubrir si tras las estimaciones de los sujetos, hay algunas
"variables de fondo" cuya medición directa por a través de medios lingüísticos
no sería posible a causa de la carencia de adjetivos apropiados en el
lenguaje. La hipótesis del investigador es que estas variables de fondo
"aparecen" a través de los adjetivos usados en las escalas semánticas,
habitualmente no con un adjetivo único, sino mediante un grupo de adjetivos
con correlación entre ellos.
Con la ayuda de un análisis factorial, las variables de combinación o factores
ocultos tras los atributos medidos pueden detectarse y especificarse, y el
análisis también dice lo estrechamente que estos factores están vinculados con
las variables originalmente verificadas.-- A veces se sitúa también una
condición suplementaria sobre los factores, concretamente que no deben tener
correlación alguna entre ellos y estén por lo tanto en "ángulo recto" uno con
respecto a otro (= "rotación ortogonal" de los factores durante el análisis).
Un inconveniente del método del análisis factorial es que es demasiado fácil
de usar para estudios que son formalmente correctos pero en la práctica
absurdos, porque siempre presenta los resultados de una forma elegante y
matemáticamente exacta, incluso cuando los factores obtenidos son tienen
ningún contenido empírico sensato.