Para describir
un conjunto de datos, además de la tabulación y la representación
gráfica , se utilizan valores numéricos de funciones de la variable
llamadas medidas de resumen
Las medidas de resumen
aportan la información acerca de valores centrales, la dispersión y
la forma de la distribución
MEDIDAS
DE TENDENCIA CENTRAL
Para saber cuál medida de tendencia
central utilizar, se debe tener en cuenta:
la escala de medida y la forma de la distribución
Es
útil sobretodo cuando :
* Datos ordinales o numéricos
* la distribución de la variable es asimétrica y hay
pocas observaciones
La moda se
utiliza solamente cuando el investigador tenga interés en conocer el
valor más frecuente
o en
* Datos nominales
* Distribuciones
bimodales
es
la más utilizada, por su facilidad de cálculo, en muestras grandes es
estable, fácil de entender y es de fácil uso en cálculos posteriores
* Datos numéricos
*distribuciones
simétricas
Es
de poco uso en biología. No se va a ver aquí
Es útil en en
general en aquellos casos donde el logaritmo de la variable en
estudio tiene distribución normal.
Si
consideramos las frecuencias relativas como pesos aplicados en el eje de
las abscisas, el centro de gravedad es decir el punto de aplicación de la
resultante de la distribución , se encontrará en la media aritmética o
simplemente MEDIA
La
Media de una muestra se define por la fórmula:
En
tablas de datos sin agrupar
En tablas
de datos agrupados
x
f
3
1
6
8
9
15
12
4
total
28
x
marca
de
clase
f
2
a 4
3
2
4
a 6
5
9
6
a 8
7
10
8
a 10
9
1
total
22
En
este caso se usa el punto medio o marca de clase
media
= 3x1 + 6x8 + 9x15 + 12x4 = 8.35
28
media
= 3x2 + 5x9 + 7x10 + 9x1 = 5.90
22
Cuando
los datos están agrupados en clases se produce una pérdida de
información que puede traducirse en pequeños errores en el verdadero
valor de la media, por esa razón cuando es posible conviene
promediar los valores de la tabla de frecuencias sin agrupar , o
bien los valores individuales tomados de 1 en 1 .
Otra medida de
tendencia central utilizada comúnmente es la Mediana .
Recordemos
que la mediana es el valor que deja por debajo y por encima de él el
mismo número de observaciones , es el percentil 50
En
una lista estadística ordenada, con los datos sin agrupar :
número de
observaciones es impar, la mediana corresponde al valor central
el número de
observaciones es par, la mediana corresponde al promedio entre
los dos valores centrales
Cuando
los datos están agrupados, para calcular la mediana se
requieren las frecuencias acumuladas
Pasos
a seguir
a.-
Se determina la
clase que contiene la observación de orden (n+1)/2 que corresponde a la
clase mediana
(48+1)/2 = 24.5
(la mediana está entre los valores de las observaciones 24º y
25º)
b.-
la mediana se calcula de acuerdo a la fórmula
donde:
li : límite
inferior de la clase mediana
( en este caso li = 14) Fa :
frecuencia acumulada de la clase anterior a la clase mediana (16) f :
frecuencia absoluta de la clase mediana(15) h : amplitud
o extensión del intervalo de clase (6)
Forma
gráfica de calcular la mediana
A
partir de un gráfico de Fr (frecuencias relativas acumuladas), se
traza a la altura de 0.5 (o 50%) una línea paralela al eje de la
variable, en el punto de corte, se traza una perpendicular. El valor
resultante en el eje de las x , ese será la mediana.
Una tercera
medida es la Moda, o sea el valor más frecuente.
Cuando
los datos están sin agrupar
La
moda se determina por la simple inspección de la lista ordenada
x
10
10
11
12
12
12
12
16
La moda es 12
Cuando
los datos están agrupados una buena aproximación
de la moda se consigue con la fórmula de Czuber
donde: li:
límite inferior de la clase modal D1:
diferencia entre la frecuencia de la clase modal y la clase anterior a
ella D2:diferencia
entre la clase modal y la clase siguiente a ella h:
extensión del intervalo
La
más inmediata medida de dispersión es la Amplitud total (rango,
recorrido o intervalo)
La amplitud total (A) es la diferencia entre el límite real superior y
el límite real inferior de la distribución
ej: { 2, 5,
6, 6, 11 } en esta distribución la amplitud A = 11.5 -1.5 =10
|
|
1.5
11.5
Semirrecorrido
intercuartílico (Q) es la diferencia entre el percentil 75 (P75) y
percentil 25 (P25) dividido 2.
Percentil
de orden r
es aquel valor que deja un r% de observaciones por debajo de él .
Por ejemplo la mediana, que deja el 50% de las observaciones por debajo de
el es el percentil 50 ( mediana)
la varianza y la
desviación típica también se designan, en muestras, con la
letra s2 y s respectivamente
La varianza
es el promedio del cuadrado delos desvíos con respecto a la media
Como
la varianza está expresada encuadrados de las unidades empleadas
en la distribución su interpretación se hace difícil, por lo tanto en
la práctica se usa como medida de dispersión la raízcuadrada
positiva de la varianza, llamada desviación
típica
Dos
distribuciones pueden coincidir en tendencia central y dispersión
pero diferir en asimetría.
Una de las formas de calcular el coeficiente de asimetría es :
Dos
distribuciones pueden diferir también en su apuntamiento o
kurtosis. La referencia está dada por la distribución NORMAL,
que es Mesocúrtica.
El alejamiento de este "modelo" determina dos tipos
más de distribuciones.
Aquellas que
presentan frecuencias más altas, que la mesocúrtica, en los
extremos y el centro de la distribución, se llaman Leptocúrticas Aquellas que el exceso se da en los valores comprendidos entre
los extremos y el centro, se llaman Platicúrticas. Un
extremo de platicurtosis serían las distribuciones bimodales
Coeficiente
del momento de Kurtosis : g2
= m4 / s4 - 3
l
Se aplica a cualquier
distribución de frecuencias
l Es
posible que pocas medidas (datos) caigan dentro de la media
+ 1 desvío típico y - 1 desvío típico
l Al
menos el 75% de las medidas caerán dentro de 2
desvíos típicos de la media para cada lado
l Al
menos el 89.9% de las medidas caerán dentro de 3
desviaciones típicas de la media para cada lado
l La
proporción mínima de valores que se encuentra dentro
de kdesviaciones típicas de la media es
al menos 1-1/k2,
para k>1.