Estudios Virtuales

En el diario vivir existen situaciones en donde decisiones importantes se producen basadas en diferentes tipos de información cuantitativa. Estos datos se derivan de un desglosar de procedimientos y fórmulas que permiten obtener una información entendible.

La estadística son un conjunto de técnicas y procedimientos que se utilizan para recolectar, organizar y analizar datos cuantitativos, los cuales permiten resumir los conjuntos de datos de manera que puedan ser empleados para una toma de decisión.

La estadística descriptiva es una ciencia que analiza series de datos (por ejemplo, edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc) y trata de extraer conclusiones sobre el comportamiento de estas variables.

Variables cualitativas o atributos: no se pueden medir numéricamente (por ejemplo: nacionalidad, color de la piel, sexo).

Variables cuantitativas: tienen valor numérico (edad, precio de un producto, ingresos anuales).

Las variables pueden clasificarse en: categóricas o cualitativas (atributos), no tienen ningún grado de comparación numérica, ejemplo: sexo, estado civil; y numéricas o cuantitativas, son características factibles de expresar por medio de números, estas pueden ser Discretas, que solo pueden tomar ciertos valores aislados en un intervalo, y Continuas, que pueden tomar cualquier valor en un intervalo.

Variables unidimensionales: sólo recogen información sobre una característica (por ejemplo: edad de los alunmos de una clase).

Variables bidimensionales: recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase).

Variables pluridimensionales: recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase).

Por su parte, las variables cuantitativas se pueden clasificar en discretas y continuas:

Discretas: sólo pueden tomar valores enteros (1, 2, 8, -4, etc.). Por ejemplo: número de hermanos (puede ser 1, 2, 3....,etc, pero, por ejemplo, nunca podrá ser 3,45).

Continuas: pueden tomar cualquier valor real dentro de un intervalo. Por ejemplo, la velocidad de un vehículo puede ser 80,3 km/h, 94,57 km/h...etc.

Cuando se estudia el comportamiento de una variable hay que distinguir los siguientes conceptos:

Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.

Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeo que se estudia. Por ejemplo, si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.

Muestra: subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo (muestra) que se entienda que es suficientemente representativo.

La distribución de frecuencia es la representación estructurada, en forma de tabla, de toda la información que se ha recogido sobre la variable que se estudia.

Variable	Frecuencias absolutas		Frecuencias relativas
(Valor)	Simple	Acumulada	Simple	Acumulada
x	x	x	X	X
X1	n1	n1	f1 = n1 / n	f1
X2	n2	n1 + n2	f2 = n2 / n	F1 + f2
...	...	...	...	...
Xn-1	nn-1	n1 + n2 +..+ nn-1	fn-1 = nn-1 / n	f1 + f2 +..+fn-1
Xn	nn	 n	fn = nn / n	 f

Siendo X los distintos valores que puede tomar la variable.
Siendo n el número de veces que se repite cada valor.
Siendo f el porcentaje que la repetición de cada valor supone sobre el total

Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm):

Alumno	Estatura	Alumno	Estatura	Alumno	Estatura
x	x	x	x	X	x
Alumno 1	1,25	Alumno 11	1,23	Alumno 21	1,21
Alumno 2	1,28	Alumno 12	1,26	Alumno 22	1,29
Alumno 3	1,27	Alumno 13	1,30	Alumno 23	1,26
Alumno 4	1,21	Alumno 14	1,21	Alumno 24	1,22
Alumno 5	1,22	Alumno 15	1,28	Alumno 25	1,28
Alumno 6	1,29	Alumno 16	1,30	Alumno 26	1,27
Alumno 7	1,30	Alumno 17	1,22	Alumno 27	1,26
Alumno 8	1,24	Alumno 18	1,25	Alumno 28	1,23
Alumno 9	1,27	Alumno 19	1,20	Alumno 29	1,22
Alumno 10	1,29	Alumno 20	1,28	Alumno 30	1,21

Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia:

Variable	Frecuencias absolutas		Frecuencias relativas
(Valor)	Simple	Acumulada	Simple	Acumulada
x	x	x	X	x
1,20	1	1	3,3%	3,3%
1,21	4	5	13,3%	16,6%
1,22	4	9	13,3%	30,0%
1,23	2	11	6,6%	36,6%
1,24	1	12	3,3%	40,0%
1,25	2	14	6,6%	46,6%
1,26	3	17	10,0%	56,6%
1,27	3	20	10,0%	66,6%
1,28	4	24	13,3%	80,0%
1,29	3	27	10,0%	90,0%
1,30	3	30	10,0%	100,0%

Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces, entonces conviene agruparlos por intervalos, ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis. (tal como se verá en la siguiente lección).

Una Distribución de frecuencia agrupada se emplea cuando un gran conjunto de datos tiene muchos valores X distintos, en lugar de unos cuantos valores repetidos. Es decir, es una tabla que se emplea si las variables toman un número grande de valores o la variable es continua. Se agrupan los valores en intervalos que contengan la misma amplitud denominados clases. A cada clase se le asigna una frecuencia correspondiente.

Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.

La amplitud de la clase es la diferencia entre el límite superior e inferior de la clase.

La marca de clase es el punto medio de cada intervalo y es el calor que representa a todo el intervalo para el cálculo de algunos parámetros.

Un profesor pasa un test de hábitos de estudio a sus treinta alumnos, los resultados son los siguientes:

37, 72, 71, 65, 54, 78, 85, 42, 49, 63, 61, 32, 51, 33, 77, 93, 85, 83, 63, 55, 58, 46, 57, 73, 73, 68, 73, 91, 75, 77.

El valor más pequeño es 32 y el mayor 93. Si construyésemos una tabla de distribución de frecuencias como la anterior tendríamos una lista demasiado extensa (62 números) y muchas de las frecuencias serían cero. En estos casos se recurre a lo que se denomina la agrupación en intervalos de clase, que consiste en formar grupos de valores consecutivos de la variable y poner cada uno de estos grupos en cada fila, en lugar de poner una sola puntuación.

Para agrupar las puntuaciones de la variable se suelen establecer estas dos reglas:

En el ejemplo, la variable toma dos valores el Máximo 93 y el Mínimo 32, es decir, su rango ó amplitud total es 93-32+1=62. Nos fijamos en la regla nº 2 y dividimos 62/10=6,2 y 62/20=3,1. Esto quiere decir que si agrupamos las puntuaciones de 6 en 6 tendremos 10 intervalos, si las agrupamos de 3 en 3 tendremos alrededor de 20 intervalos. Atendiendo a la regla nº 1, decidimos hacer intervalos de clase de amplitud 5.

A partir de un número que sea múltiplo del tamaño de los intervalos de clase y que se aproxime lo más posible a la medida observada menor. En nuestro ejemplo 32 es el valor más pequeño y 30 el múltiplo de 5 más cercano, así que el primer intervalo de clase contendrá las puntuaciones 30, 31, 32, 33 y 34 y el último 90, 91, 92, 93 y 94. La tabla de distribución de frecuencias agrupada sería la siguiente:

Intervalos de clase X_i	Frecuencia del Intervalo f_i
90 – 94	2
85 – 89	2
80 – 84	1
75 – 79	4
70 – 74	5
65 – 69	2
60 – 64	3
55 – 59	3
50 – 54	2
45 – 49	2
40 – 44	1
35 – 39	1
30 - 34	2

Según esta tabla de distribución de frecuencias agrupadas, la variable puntuación del test de hábitos de estudio no puede tomar valores entre 44 y 45 o entre 59 y 60.

Aunque en la práctica esto es así porque el test usado para medir hábitos de estudio no tiene la precisión suficiente para obtener valores como 44,5 o 59,8, en teoría tenemos que considerar esta variable como continua en el intervalo, es decir, puede tomar cualquier valor entre 30 y 94. Así pues los límites exactos del intervalo 30-34 son 29,5 - 34,5, los del intervalo 35-39 son 34,5-39,5 y así sucesivamente de forma que el límite superior exacto de un intervalo coincida con el límite inferior exacto del siguiente.

Una medida de posición central es uno de varios tipos de promedios . Las tres medidas de tendencia central más comúnmente usadas son :

Por definición cada una de estas medidas es representativa de una serie de datos en una forma muy particular.

La Moda: es el valor que más se repite en la muestra. No existe una fórmula para la moda, por cuanto el mismo se obtiene mediante una simple inspección. Si existe más de un valor que tiene la frecuencia alta (es decir, que el valor f es compartido por dos o más valores X), entonces existen varias modas; la distribución es bimodal, trimodal, etc.

Como se puede apreciar en el siguiente cuadro: la moda se encuentra en el intervalo 70 – 74, ya que es el que se repite más veces y la moda es 72.

Intervalos de clase X_i	Frecuencia del Intervalo f_i	Frecuencia acumulada f acum.
90 – 94	2	2
85 – 89	2	4
80 – 84	1	5
75 – 79	4	9
70 – 74	5	14
65 – 69	2	16
60 – 64	3	19
55 – 59	3	22
50 – 54	2	24
45 – 49	2	26
40 – 44	1	27
35 – 39	1	28
30 - 34	2 30	30

La moda que se localiza en una distribución de frecuencia agrupada es solamente una medida aproximada, debido a que sólo se conoce el intervalo en donde la frecuencia más alta ocurre, no se conoce el valor exacto

La Mediana: es un valor en una frecuencia en donde la mitad de número total de la frecuencia (N/2) está por encima y la otra mitad del número total de la frecuencia está por debajo. Es decir, que la mediana es el punto medio de la distribución de la frecuencia.

Subiendo en la escala f acum., la frecuencia número 15 se localiza en alguna parte de intervalo 74,5 – 69,5

La Media Aritmética: la media simbolizada por una X, es la medida más comúnmente utilizada en tendencia central. La media X es el valor en donde la suma algebráica de las desviaciones alrededor de la media es igual a 0. Se obtiene mediante la suma de los valores (∑ X) que luego se divide por el número total de los mismos.

37+ 72+ 71+ 65+ 54+ 78+ 85+ 42+ 49+ 63+ 61+ 32+ 51+ 33+ 77+ 93+ 85+ 83+ 63+ 55+ 58+ 46+ 57+ 73+ 73+ 68+ 73+ 91+ 75+ 77

Las medidas de posición son aquellos valores numéricos que nos permiten o bien dar alguna medida de tendencia central, dividiendo el recorrido de la variable en dos, o bien fragmentar la cantidad de datos en partes iguales.

La idea de media o promedio ( también llamada media aritmética) formaliza el concepto intuitivo de punto de equilibrio de las observaciones. Es decir, es el punto medio del recorrido de la variable según la cantidad de valores obtenidos.
Ese valor tiene varias propiedades importantes. 1) si se suma la distancia de todos los valores respecto de la media, esa suma da cero. 2) si se toman una cantidad cualesquiera de conjuntos de valores, cada uno con su respectiva media, la media del conjunto general es igual a la suma de cada una de las medias de los diferentes conjuntos. 3) es posible hallar la media de un conjunto de valores de una variable a partir de tomar la distancia de las observaciones a un valor cualquiera (pertenezca o no al recorrido de la variable) 4) si a un conjunto de observaciones de una variable se le realiza una operación matemática usando un valor constante, entonces la media del nuevo grupo de valores así obtenidos es igual a la aplicación de la misma operación matemática usando ese valor constante sobre la media original.

1) Dado un conjunto de observaciones la media se representa mediante y se obtiene dividiendo la suma de todos los datos por el número de ellos, es decir:

La interpretación de la media como centro (o punto de equilibrio) de los datos se apoya en una propiedad que afirma que la suma de las desviaciones

de un conjunto de observaciones a su media es igual a cero; es decir, puede probarse que

2) Otra propiedad importante de la media es que si sumamos diferentes variables, la media de la suma es la suma de las respectivas medias; es decir

3) Un elemento que hace importante la media como medida de valor central es que una vez calculada la media, la distancia entre cualquier observación y la media puede verse como un desvío de la observación respecto de la media, lo cual emplearemos más adelante.
Esto permite el cálculo de la media tomando una media conjetural como punto deposición.

Si un conjunto de observaciones tienen desviaciones respecto de un número dadas por , entonces tenemos que

4) Dado un conjunto de observaciones con media , si a cada uno de esos valores se le realiza la misma operación matemática por el mismo valor constante siendo una operación matemática básica (suma, resta, multiplicación o división) la media del nuevo conjunto de valores es igual a .

A 2) Media para datos agrupados
A 2.1) Cálculo a partir de frecuencias relativas

Consideremos el caso en que tenemos una distribución de frecuencia con marcas de clase (en el caso de variables discretas no dispuestas en intervalos, consideraremos que el valor de la variable es un intervalo de amplitud 1, en ese caso la marca de clase coincide con el valor de la variable) y frecuencias relativas respectivamente. La expresión que definía la media –vista anteriormente- se puede reescribir como

y esta última fórmula puede interpretarse como la suma del producto de los datos por sus frecuencias relativas. Dado que en el caso de los datos agrupados (especialmente en el caso del uso de intervalos) no tenemos el valor concreto de los datos, usamos el punto medio del intervalo (que funcionaría como una especie de media del intervalo) y así la media se expresaría como la suma de los productos de las marcas de clase por sus frecuencias relativas.

También podemos calcular la media aritmética real a partir de una media conjetural de la siguiente manera

Si se observa atentamente se verá que cálculo de la media visto para las frecuencias relativas equivale a la sumatoria de la marca de clase por su frecuencia absoluta, dividido este resultado por el número de casos totales

Mostraremos ahora, a modo de ejemplo, una fórmula para el cálculo de la media aritmética o promedio tomando una media conjetural A establecido como un valor cualquiera. Pero ahora, para los datos agrupados, es decir para el caso en que las marcas de clase tengan respectivamente frecuencias y donde tenemos que

El resto de las propiedades consideradas anteriormente puede calcularse de manera análoga a lo que se hizo para los datos sin agrupar, usando ahora la marca de clase.

La mediana, a diferencia de la media no busca el valor central del recorrido de la variable según la cantidad de observaciones, sino que busca determinar el valor que tiene aquella observación que divide la cantidad de observaciones en dos mitades iguales. Por lo tanto es necesario atender a la ordenación de los datos, y debido a ello, este cálculo depende de la posición relativa de los valores obtenidos. Es necesario, antes que nada, ordenar los datos de menor a mayor (o viceversa).

Hay que tener en cuenta que si se utiliza para denotar el conjunto de las observaciones, donde el subíndice indica el orden en el dato que fue obtenido o registrado, suele utilizarse para representar las mismas observaciones, pero ahora ordenadas de menor a mayor, por lo tanto ahora aparece primero el dato más pequeño y último el más grande.

La mediana es el valor del dato central si hay un número impar de observaciones o el valor de la semisuma de los valores de los dos datos centrales si se tiene un número par de datos Así, la mediana puede expresarse como:

En el caso de variables discretas donde cada categoría es el valor de la variable, se puede tomar como un caso de intervalo de amplitud 1 y en este caso el calculo de la mediana funciona exactamente como lo visto para datos sin agrupar. Esto vale también para el resto de las medidas que se verán en esta sección (cuartiles, quintiles, etc.)
Cuando trabajamos con variables agrupadas por intervalos es imposible determinar con precisión los valores que toman los datos, ya que esa información se ha perdido en privilegio del agrupamiento interval. Por lo tanto, en este caso, debemos buscar otro método para determinar el valor de la mediana.

Sabiendo que la mediana divide al conjunto de las observaciones en dos grupos iguales, es claro que ella se ubicará en el intervalo donde las frecuencias relativas acumuladas alcanzan el valor 0,50.
El cálculo de la mediana se haría con la siguiente fórmula:

Es decir, la mediana sería el valor que resulta del siguiente conjunto de operaciones:
1) Restarle a 0,50 el valor de la frecuencia relativa acumulada anterior al intervalo que contiene el valor 0,50

2) dividir ese resultado por la frecuencia relativa del intervalo que contiene el valor 0,50
3) multiplicar ese resultado por la amplitud del intervalo que contiene al valor 0,50 y
4) sumarle a la cantidad así obtenida el valor que toma el límite inferior del intervalo que contiene el valor 0,50 de la frecuencia relativa.

B 2.2) Cálculo a partir de frecuencias absolutas
La mediana se ubicará en el intervalo donde las frecuencias absolutas toman el valor ; que es lo mismo que decir que la mediana de una distribución se ubicará el intervalo en el cual la frecuencia absoluta acumulada alcanza el 50% de los datos.
Por lo tanto la fórmula para calcular la mediana sería

Es decir, la mediana sería el valor que resulta del siguiente conjunto de operaciones:
1) Dividir el número de casos entre 2 y a ese resultado restarle la frecuencia absoluta acumulada hasta el intervalo anterior al que contiene al caso central
2) dividir ese resultado por la frecuencia absoluta del intervalo que contiene al caso central
3) multiplicar ese resultado por la amplitud del intervalo que contiene al dato central y
4) sumarle a la cantidad así obtenida el valor que toma el límite inferior del intervalo que contiene al caso central.

La mediana, como vimos separa en dos mitades el conjunto ordenado de observaciones. Podemos aún dividir cada mitad en dos de tal manera que resulten cuatro partes iguales. Cada una de esas divisiones se conoce como Cuartil y lo simbolizaremos mediante la letra Q agregando un subíndice según a cual de los cuatro cuartiles nos estemos refiriendo. Se llama primer cuartil Q₁ a la mediana de la mitad que contiene los datos más pequeños. Este cuartil, corresponde al menor valor que supera – o que deja por debajo de él- a la cuarta parte de los datos. Se llama tercer cuartil Q₃ a la mediana de la mitad formada por las observaciones más grandes. El tercer cuartil es el menor valor que supera – o que deja por debajo de él- a las tres cuartas partes de las observaciones. Con esta terminología, la mediana es el segundo cuartil Q₂ y el cuarto cuartil Q₄ coincide con el valor que toma el último dato, luego de ordenados.

C 1) Cuartiles para datos sin agrupar
Tal como se concluye de lo anterior, el cálculo será idéntico al de la mediana para el segundo cuartil y no hay ningún problema en determinar el cuarto cuartil.

Sin duda el cálculo para el cuartil dos es idéntico al de la mediana. Si bien el último dato de la variable, cuyo valor es el cuartil cuarto no siempre coincide realmente con el límite superior del último intervalo, al estar los datos agrupados el cuartil cuarto corresponde al valor que toma el límite superior del intervalo que contiene a al valor N.
Solo quedan por ver los otros dos cuartiles, que serán análogos a los cálculos de la mediana, pero con las salvedades correspondientes

Los quintiles son valores que resultan de dividir la población ( el N de las observaciones) en cinco partes iguales (20% en c/u)

D 1) Cálculo para datos sin agrupar
El se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición que corresponde al (g . 20) % de la población.

Los deciles son valores que resultan de dividir la población (el N de las observaciones) en diez partes iguales (10% en c/u)

El se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición que corresponde al (h.10) % de la población.

Los percentiles son valores que resultan de dividir la población (el N de las observaciones) en cien partes iguales (1% en cada una).

F 1) Cálculo para datos sin agrupar
El se obtiene identificando el valor que para la variable en cuestión tiene el individuo que ocupa la posición j%

se debe tener en cuenta que cuando j es un valor entre 1 y 9 inclusive se debe escribir 0,0j en el numerador en lugar de 0,j

La moda, como ya se vio, es aquel dato, aquel valor de la variable que más se repite; es decir, aquel valor de la variable (que puede no ser un único valor) con una frecuencia mayor.

En los datos sin agrupar o en los datos agrupados para variables discretas donde cada clase es un valor diferente de la variable, basta una simple inspección ocular.

Obviamente, si todas las observaciones estuvieran concentradas en un solo valor de la variable, media, mediana y moda coincidirían en el mismo. Si las observaciones se fueran distribuyendo en forma simétrica, a la izquierda y a la derecha de ese valor central, media, mediana y modo seguirían coincidiendo. Supongamos ahora que las observaciones de la parte izquierda se alejan del valor central más que las observaciones de la parte derecha, generando una distribución asimétrica hacia la izquierda; en este caso como la media es la suma de los valores de las observaciones dividido por la cantidad total de observaciones, su valor se correrá a la izquierda también y por el mismo motivo, la media será menor que la mediana y ambas menor que la moda. En una distribución asimétrica a la derecha, la media, es mayor que la mediana y que la moda.

Este corrimiento de la media se explica porque si tomamos un conjunto de datos cualquiera a los cuales calculamos media, mediana y moda y agregamos un dato extremo y volvemos a calcular la media, la mediana y la moda, veremos que la media puede variar notablemente, mientras que la mediana y la moda permanecen idénticas. Esta no variación de la mediana y la moda reciben el nombre de robustez. Las medidas basadas en el orden –como la mediana- gozan de ésta en tanto que las medidas basadas en la suma –como la media- se ven más afectadas por las observaciones extremas y son, por lo tanto, poco robustas.

Se llaman medidas de dispersión aquellas que permiten retratar la distancia de los valores de la variable a un cierto valor central, o que permiten identificar la concentración de los datos en un cierto sector del recorrido de la variable. Se trata de coeficiente para variables cuantitativas.

Es posible identificar conjuntos de datos que a pesar de ser muy distintos en términos de valores absolutos, poseen la misma media. Una medida diferencial para identificar esos conjuntos de datos es la concentración o dispersión alrededor de la media.

Una manera que aparece como muy natural para construir una medida de dispersión sería promediar las desviaciones de la media, pero como vimos

Una manera de evitar que los distintos signos se compensen es elevarlas al cuadrado, de manera que todas las desviaciones sean positivas. La raíz cuadrada del promedio de estas cantidades recibe el nombre de desvío estándar, o desviación típica y es representada por la siguiente fórmula:

La desviación estándar sólo puede utilizarse en el caso de que las observaciones se hayan medido con escalas de intervalos o razones.

A mayor valor del coeficiente del desvío estándar, mayor dispersión de los datos con respecto a su media. Es un valor que representa los promedios de todas las diferencias individuales de las observaciones respecto a un punto de referencia común, que es la media aritmética. Se entiende entonces que cuando este valor es más pequeño, las diferencias de los valores respecto a la media, es decir, los desvíos, son menores y, por lo tanto, el grupo de observaciones es más “homogeneo” que si el valor de la desviación estándar fuera más grande. O sea que a menor dispersión mayor homogeneidad y a mayor dispersión, menor homogeneidad.

A 2) Desvío estándar para datos agrupados
A 2.1) Cálculo usando las frecuencias absolutas

El cuadrado de la desviación estándar recibe el nombre de varianza y se representa por. La suma de los cuadrados de los desvíos de la totalidad de las observaciones, respecto de la media aritmética de la distribución, es menor que la suma de los cuadrados de los desvíos respecto de cualquier otro valor que no sea la media aritmética.

Si observamos, veremos que la varianza no es más que el desvío estándar al cuadrado. Precisamente la manera de simbolizarla es.

Por lo mismo, el desvío estándar puede definirse como la raíz cuadrada de la varianza

Para comparar la dispersión de variables que aparecen en unidades diferentes (metros, kilos, etc.) o que corresponden a poblaciones extremadamente desiguales, es necesario disponer de una medida de variabilidad que no dependa de las unidades o del tamaño de los datos. Este coeficiente únicamente sirve para comparar las dispersiones de variables correspondientes a escalas de razón.

Una manera de construir una medida de variabilidad que cumpla los requisitos anteriores es el llamado coeficiente de variación

(las barras del denominador representan el valor absoluto, es decir, indican que debe prescindirse de la unidad de medida de la media). A menor coeficiente de variación consideraremos que la distribución de la variable medida es más homogénea.

Otro rasgo interesante en una distribución de frecuencias es si los datos aparecen ubicados simétricamente o no respecto de la media. Si queremos cuantificar la simetría, es necesario conservar la información acerca tanto del signo como de la distancia de cada dato a la media –centro de simetría-. Este razonamiento lleva a utilizar una potencia impar de las desviaciones.

En el caso en que el coeficiente valga cero la distribución es simétrica alrededor de la media. Los valores positivos, indicarán distribuciones con mayor sesgo a la derecha y los valores negativos indicarán un mayor sesgo a la izquierda.

D 1) Coeficiente de Asimetría para datos sin agrupar
El coeficiente de asimetría se define como

D 2) Coeficiente de Asimetría para datos agrupados
D 2.1) Cálculo usando las frecuencias absolutas

Otra característica relevante en una distribución es su apuntamiento o kurtosis, que describe lo picuda o plana que es la distribución, es decir si los datos se concentran demasiado o no, comparados con un modelo de distribución llamado distribución normal.

E 2) Coeficiente de Apuntamiento para datos agrupados
E 2.1) Cálculo usando frecuencias absolutas

El rango intercuartílico RI es, sencillamente, la diferencia entre el tercer y el primer cuartil, es decir

Esto nos dice en cuántas unidades de los valores que toma la variable se concentra el cincuenta por ciento central de los casos.

Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra utilizada en algún caso específico.

Concentración: Mide si los valores de la variable están más o menos uniformemente repartidos a lo largo de la muestra.

Para medir el nivel de concentración de una distribución de frecuencia se pueden utilizar distintos indicadores, entre ellos el Indice de Gini.

En donde pi mide el porcentaje de individuos de la muestra que presentan un valor igual o inferior al de xi.

IG = 0: Concentración mínima. La muestra está uniformemente repartida a lo largo de todo su rango.

IG = 1: Concentración máxima. Un sólo valor de la muestra acumula el 100% de los resultados.

Ejemplo: vamos a calcular el Índice Gini de una serie de datos con los sueldos de los empleados de una empresa (millones pesetas).

Sueldos	Empleados (Frecuencias absolutas)		Frecuencias relativas
(Millones)	Simple	Acumulada	Simple	Acumulada
X	X	X	X	x
3,5	10	10	25,0%	25,0%
4,5	12	22	30,0%	55,0%
6,0	8	30	20,0%	75,0%
8,0	5	35	12,5%	87,5%
10,0	3	38	7,5%	95,0%
15,0	1	39	2,5%	97,5%
20,0	1	40	2,5%	100,0%

Calculamos los valores que necesitamos para aplicar la fórmula del Índice de Gini:

xi	ni	 ni	Pi	*Xi ni**	* Xi ni**	qi	Pi - qi
X	x	x	x	X	x	x	x
3,5	10	10	25,0	35,0	35,0	13,6	10,83
4,5	12	22	55,0	54,0	89,0	34,6	18,97
6,0	8	30	75,0	48,0	147,0	57,2	19,53
8,0	5	35	87,5	40,0	187,0	72,8	15,84
10,0	3	38	95,0	30,0	217,0	84,4	11,19
15,0	1	39	97,5	15,0	232,0	90,3	7,62
25,0	1	40	100,0	25,0	257,0	100,0	0
X	X	x	x	X	X	x	X
 pi (entre 1 y n-1) =			435,0	x	 (pi - qi) (entre 1 y n-1 ) =		83,99

Un Indice Gini de 0,19 indica que la muestra está bastante uniformemente repartida, es decir, su nivel de concentración no es excesivamente alto.

Ejemplo: Ahora vamos a analizar nuevamente la muestra anterior, pero considerando que hay más personal de la empresa que cobra el sueldo máximo, lo que conlleva mayor concentración de renta en unas pocas personas.

Sueldos	Empleados (Frecuencias absolutas)		Frecuencias relativas
(Millones)	Simple	Acumulada	Simple	Acumulada
x	x	X	x	X
3,5	10	10	25,0%	25,0%
4,5	10	20	25,0%	50,0%
6,0	8	28	20,0%	70,0%
8,0	5	33	12,5%	82,5%
10,0	3	36	7,5%	90,0%
15,0	0	36	0,0%	90,0%
20,0	4	40	10,0%	100,0%

Xi	ni	 ni	pi	*Xi ni**	* Xi ni**	Qi	pi - qi
X	x	X	x	x	x	X	x
3,5	10	10	25,0	35	35	11,7	13,26
4,5	10	20	50,0	45	80	26,8	23,15
6,0	8	28	70,0	48	128	43,0	27,05
8,0	5	33	82,5	40	168	56,4	26,12
10,0	3	36	90,0	30	198	66,4	23,56
15,0	0	36	90,0	0	198	66,4	23,56
25,0	4	40	100,0	100	298	100,0	0,00
X	x	X	x	x	X	X	X
 pi (entre 1 y n-1) =			407,5	x	 (pi - qi) (entre 1 y n-1 ) =		136,69

El Indice Gini se ha elevado considerablemente, reflejando la mayor concentración de rentas que hemos comentado.

8.- MEDIDAS DE FORMA: COEFICIENTE DE ASIMETRÍA. PRINCIPALESMEDIDAS. CURVAS.

Asimetría: Mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares.

El concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmética)

Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido:

g1 = 0 (distribución simétrica; existe la misma concentración de valores a la derecha y a la izquierda de la media)

g1 > 0 (distribución asimétrica positiva; existe mayor concentración de valores a la derecha de la media que a su izquierda)

g1 < 0 (distribución asimétrica negativa; existe mayor concentración de valores a la izquierda de la media que a su derecha)

Ejemplo: Vamos a calcular el Coefiente de Asimetría de Fisher de la serie de datos referidos a la estatura de un grupo de alumnos:

Variable	Frecuencias Absolutas		Frecuencias relativas
(Valor)	Simple	Acumulada	Simple	Acumulada
x	x	x	x	x
1,20	1	1	3,3%	3,3%
1,21	4	5	13,3%	16,6%
1,22	4	9	13,3%	30,0%
1,23	2	11	6,6%	36,6%
1,24	1	12	3,3%	40,0%
1,25	2	14	6,6%	46,6%
1,26	3	17	10,0%	56,6%
1,27	3	20	10,0%	66,6%
1,28	4	24	13,3%	80,0%
1,29	3	27	10,0%	90,0%
1,30	3	30	10,0%	100,0%

Por lo tanto el Coeficiente de Fisher de Simetría de esta muestra es -0,1586, lo que quiere decir que presenta una distribución asimétrica negativa (se concentran más valores a la izquierda de la media que a su derecha).

Determinan el grado de apuntamiento o picudez de una curva con respecto a la distribución o curva normal, se usa para mostrar el grado de concentración (curva con gran apuntamiento) de los datos o dispersión de los mismos (curva achatada). El Coeficiente de Curtosis analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución.

Distribución mesocúrtica: Presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal).

Distribución leptocúrtica: Presenta un elevado grado de concentración alrededor de los valores centrales de la variable.

Distribución platicúrtica: Presenta un reducido grado de concentración alrededor de los valores centrales de la variable.

Ejemplo: Vamos a calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos:

Variable	Frecuencias absolutas		Frecuencias relativas
(Valor)	Simple	Acumulada	Simple	Acumulada

1,20	1	1	3,3%	3,3%
1,21	4	5	13,3%	16,6%
1,22	4	9	13,3%	30,0%
1,23	2	11	6,6%	36,6%
1,24	1	12	3,3%	40,0%
1,25	2	14	6,6%	46,6%
1,26	3	17	10,0%	56,6%
1,27	3	20	10,0%	66,6%
1,28	4	24	13,3%	80,0%
1,29	3	27	10,0%	90,0%
1,30	3	30	10,0%	100,0%

Por lo tanto, el Coeficiente de Curtosis de esta muestra es -1,39, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida concentración alrededor de los valores centrales de la distribución.

Son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento de la población: por ejemplo: peso y altura de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad; potencia y velocidad de una gama de coches deportivos.

X \ Y	y1	y2	.....	ym-1	ym
x1	n1,1	n1,2		n1,m-1	n1,m
x2	n2,1	n2,2		n2,m-1	n2,m
.....
xn-1	nn-1,1	nn-1,2		nn-1,m-1	nn-1,m
Xn	nn,1	nn,2		nn,m-1	nn,m

Las "x" representan una de las variables y las "y" la otra variable. En cada intersección de una valor de "x" y un valor de "y" se recoge el número de veces que dicho par de valores se ha presentado conjuntamente. Ejemplo: Medimos el peso y la estatura de los alumnos de una clase y obtenemos los siguientes resultados:

Alumno	Estatura	Peso	Alumno	Estatura	Peso	Alumno	Estatura	Peso
X	x	x	x	x	x	x	x	x
Alumno 1	1,25	32	Alumno 11	1,25	31	Alumno 21	1,25	33
Alumno 2	1,28	33	Alumno 12	1,28	35	Alumno 22	1,28	32
Alumno 3	1,27	31	Alumno 13	1,27	34	Alumno 23	1,27	34
Alumno 4	1,21	34	Alumno 14	1,21	33	Alumno 24	1,21	34
Alumno 5	1,22	32	Alumno 15	1,22	33	Alumno 25	1,22	35
Alumno 6	1,29	31	Alumno 16	1,29	31	Alumno 26	1,29	31
Alumno 7	1,30	34	Alumno 17	1,30	35	Alumno 27	1,30	34
Alumno 8	1,24	32	Alumno 18	1,24	32	Alumno 28	1,24	33
Alumno 9	1,27	32	Alumno 19	1,27	31	Alumno 29	1,27	35
Alumno 10	1,29	35	Alumno 20	1,29	33	Alumno 30	1,29	34

Esta información se puede representar de un modo más organizado en la siguiente tabla de correlación:

Estatura \ Peso	31 kg	32 kg	33 kg	34 kg	35 kg
1,21 m	0	0	1	2	0
1,22 m	0	1	1	0	1
1,23 m	0	0	0	0	0
1,24 m	0	2	1	0	0
1,25 m	1	1	1	0	0
1,26 m	0	0	0	0	0
1,27 m	2	1	0	2	1
1,28 m	0	1	1	0	1
1,29 m	3	0	1	1	1
1,30 m	0	0	0	2	1

Tal como se puede ver, en cada casilla se recoge el número de veces que se presenta conjuntamente cada par de valores (x,y), así vemos que no hay ningún estudiante que mida 1,21 m (121 cm) y pese 31 kg, pero sí hay un estudiante con esta estatura que pesa 33 kg y dos estudiantes de esta estatura pesan 34 kg.

Tal como vimos en las distribuciones unidimensionales si una de las variables (o las dos) presentan gran número de valores diferentes, y cada uno de ellos se repite en muy pocas ocasiones, puede convenir agrupar los valores de dicha variable (o de las dos) en tramos o intervalos.

Al analizar una distribución bidimensional, uno puede centrar su estudio en el comportamiento de una de las variables, con independencia de como se comporta la otra. Estaríamos así en el análisis de una distribución marginal.

De cada distribución bidimensional se pueden deducir dos distribuciones marginales: una correspondiente a la variable x, y otra correspondiente a la variable y.

Ejemplo: a partir del ejemplo siguiente se puede estudiar sus distribuciones marginales.

Estatura / Peso	31 kg	32 kg	33 kg	34 kg	35 kg
1,21 cm	0	0	1	2	0
1,22 cm	0	1	1	0	1
1,23 cm	0	0	0	0	0
1,24 cm	0	2	1	0	0
1,25 cm	1	1	1	0	0
1,26 cm	0	0	0	0	0
1,27 cm	2	1	0	2	1
1,28 cm	0	1	1	0	1
1,29 cm	3	0	1	1	1
1,30 cm	0	0	0	2	1

Estatura / Peso	31 kg	32 kg	33 kg	34 kg	35 kg
1,21 cm	0	0	1	2	0
1,22 cm	0	1	1	0	1
1,23 cm	0	0	0	0	0
1,24 cm	0	2	1	0	0
1,25 cm	1	1	1	0	0
1,26 cm	0	0	0	0	0
1,27 cm	2	1	0	2	1
1,28 cm	0	1	1	0	1
1,29 cm	3	0	1	1	1
1,30 cm	0	0	0	2	1

Las variables marginales se comportan como variables unidimensionales, por lo que pueden ser representadas en tablas de frecuencias.

Variable	Frecuencias absolutas		Frecuencias relativas
(Estatura)	Simple	Acumulada	Simple	Acumulada
xx	xx	xx	xx	xx
1,21	3	3	10,0%	10,0%
1,22	3	6	10,0%	20,0%
1,23	0	6	0,0%	20,0%
1,24	3	9	10,0%	30,0%
1,25	3	12	10,0%	40,0%
1,26	0	12	0,0%	40,0%
1,27	6	18	20,0%	60,0%
1,28	3	21	10,0%	70,0%
1,29	6	27	20,0%	90,0%
1,30	3	30	10,0%	100,0%

Variable	Frecuencias absolutas		Frecuencias relativas
(Peso)	Simple	Acumulada	Simple	Acumulada
xx	xx	xx	xx	xx
31	6	6	20,0%	20,0%
32	6	12	20,0%	40,0%
33	6	18	20,0%	60,0%
34	7	25	23,3%	83,3%
35	5	30	16,6%	100,0%

Luego de investigado cado uno de los cocneptos utilizados en la estadística, se puede concluir en que: la estadística es una herramienta que se fundamenta en procesos diversos que permiten la recolección, ordenación y análisis de datos permitiendo mostrar cuantitativamente resultados, que en su gran mayoría, son utilizados para realizar planteamientos de proyectos, con la finalidad de resolver problemas sociales y económicos dentro de una comunidad.

Por ser una herramienta muy versátil es utilizada en diferentes ciencias con el propósito de establecer patrones que sirven de apoyo referencial en las actividades de comprobación en el transcurrir del tiempo.

Se trata de una investigación en donde se define cada uno de los términos empleados en la estadística descriptiva, cada uno con su fórmula respectiva.

Es un ensayo en donde se específica cada uno de los conceptos utilizados en la estadística y desarrolla cada uno detallando las fórmulas y su aplicación.

Es una página de educación en donde define los que es estadística descriptiva y variable.

Es un trabajo el cual aborda el tema de Medidas de posición para datos agrupados y no agrupados: cuartiles, deciles y percentiles.

En esta página se hace referencia a los conceptos utilizados en medidas, clasificación y ejemplos de cada una de las medidas.

Se trata de una de las lecciones encontradas en la página, en donde se explica todo lo relacionado con Medidas de forma: Grado de concentración

Se trata de la lección 8 del curso Estadística, en donde se comenta todo lo relacionado con Medidas de forma: Coeficiente de Asimetría

Jonson Robert , Kuby Patricia, (1999) Estadística Elemental. Editorial Internacional Thomson. Mexico. pag. 49-52

UNA, (1983) Estadística Aplicada a la Educación. Editorial UNA, Caracas, Venezuela. Pag. 28-70

IG =	 (pi - qi)
	----------------------------
	 pi
(i toma valores entre 1 y n-1)

pi =	n1 + n2 + n3 + ... + ni
	----------------------------	x 100
	n

qi =	(X1n1) + (X2n2) + ... + (Xi*ni)
	-----------------------------------------------------	x 100
	(X1n1) + (X2n2) + ... + (Xn*nn)

*((xi - x)^3)ni**	*((xi - x)^2)ni**
x	x
0,000110	0,030467

	*(1/30) 0,000110**
G1 =	---------------------------------------------	= -0,1586
	*(1/30) (0,030467)^(3/2)**

((xi - xm)^4)*ni	((xi - xm)^2)*ni

0,00004967	0,03046667

X	ni.
x	x
x1	n1.
x2	n2.
.....	...
xn-1	nn-1.
xn	nn.

Y	n.j
x	x
y1	n.1
y2	n.2
.....	...
ym-1	n.m-1
ym	n.m