UNIVERSIDAD
YACAMBU
Licenciatura
Virtual en Contaduría Pública.
Prof. Sandi
Quintero.
Participante:
Nelson Torcate Méndez
Trabajo Nº 3: Estadística Inferencial
Muestreo Aleatorio – Decisiones
Estadísticas.
INTRODUCCIÓN:
Se presenta el presente trabajo como requisito
de la asignatura Estadística Inferencial, con la finalidad adquirir los conocimientos que permitirán conformar la
base estadística para predecir eventos futuros, para lo cual se debe estudiar
situaciones actuales aplicando métodos,
herramientas y técnicas estadísticas para analizar información, de un volumen
importante de datos, de interés, para
El trabajo de investigación presenta en forma muy sucinta los
principales conceptos sobre Muestreo aleatorio y Decisión estadística,
entendiéndose a este como: Las técnicas que aseguran a cada elemento en la
población de interés tenga una probabilidad (no nula) de ser incluido en la
muestra. Se revisa el concepto de estadística descriptiva y de estadística
inferencial estableciéndose entre estas dos ramas como principal diferencia que
la primera trabaja fundamentalmente en la recolección, presentación,
descripción, análisis e interpretación de una colección de datos, esencialmente
consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas)
que caracterizan la totalidad de los mismos; y la segunda se refiere al proceso
de lograr generalizaciones acerca de las propiedades del todo, población, partiendo
de lo específico, muestra las cuales llevan implícitos una serie de riesgos. Para
que éstas generalizaciones sean válidas la muestra deben ser representativa de
la población y la calidad de la información debe ser controlada, además puesto
que las conclusiones así extraídas están sujetas a errores, se tendrá que
especificar el riesgo o probabilidad que con que se pueden cometer esos
errores.
Igualmente se hace un recorrido sobre diferentes
técnicas estadísticas que permiten una correcta y oportuna toma de decisiones
entre estas vale la pena resaltar la técnica conocida como contraste de Hipótesis o test de hipótesis que no es
otra cosa que un método de inferencia
estadístico para juzgar si una propiedad que se supone cumple una población
estadística es compatible con lo observado en una muestra de dicha población.
DESARROLLO:
Muestreo Aleatorio - Decisión Estadística
1.-
Diferencia entre Estadística Descriptiva e Inferencial.
1.1 Concepto de Estadística Descriptiva: Trata de describir y analizar un grupo dado sin sacar
conclusiones para un grupo mayor. Trabaja en poblaciones, no en muestras
propiamente dichas.
En la
descripción y análisis de los individuos, que son el objeto de la
estadística descriptiva, esta utiliza el siguiente método:
a) Selección de
caracteres: Dignos de
estudio.
b) Análisis de
cada carácter. Este análisis
consiste en: Examinar cada individuo y anotar el valor de cada carácter; establecer
las clases de individuos que se desean distinguir respecto a ese carácter; clasificar y contar los individuos
incluidos en cada clase y calcular determinados valores numéricos (los parámetros estadísticos) a partir de
los datos contenidos en las distribuciones anteriores.
Utiliza representaciones gráficas para dar a conocer los resultados de los
análisis, se utilizan con frecuencia datos tabulados en el apartado anterior.
1.2 Concepto
de Estadística Inferencial: Conjunto de métodos utilizados para saber algo
acerca de una población, basándose en una muestra
Sirve extrapolar los resultados
obtenidos en el análisis de los datos y a partir de ello predecir acerca
de la población, con un margen de confianza conocido. Se apoya
fuertemente mediante el cálculo de probabilidades.
1.3 Diferencias entre Estadística
Descriptiva e Inferencial.
Estadística Descriptiva se refiere a
la recolección, presentación, descripción, análisis e interpretación de una
colección de datos, esencialmente consiste en resumir éstos con uno o dos
elementos de información (medidas descriptivas) que caracterizan la totalidad
de los mismos. La estadística Descriptiva es el método de obtener de un
conjunto de datos conclusiones sobre si mismos y no sobrepasan el conocimiento
proporcionado por éstos. Puede utilizarse para resumir o describir cualquier
conjunto ya sea que se trate de una población o de una muestra, cuando en la
etapa preliminar de
Por su parte
En sus particularidades la
Inferencia distingue la Estimación y la Contrastación de Hipótesis. Es
estimación cuando se usan las características de la muestra para hacer
inferencias sobre las características de la población. Es contrastación de
hipótesis cuando se usa la información de la muestra para responder a
interrogantes sobre la población.
2.-
Muestras y Población.
2.1 Muestra. Colección de algunos elementos, pero no de todos,
de la población bajo estudio, utilizada para describir poblaciones.
Una muestra
es un subconjuntos de datos tomados de la población, cuya finalidad es la de
realizar inferencias acerca de la población a partir del comportamiento de sus
elementos. Es claro que si la muestra es un subconjunto de la población
entonces la muestra tendrá un número menor de elementos. La naturaleza de la
muestra radica en la optimización de los recursos, por ejemplo, si deseamos
hacer un estudio acerca de las lecturas que a los estudiantes del Estado Lara
les gusta leer, el estudio implicaría considerar a los estudiantes de lugares
remotos, resultando difícil desde el punto de vista económico, sin embargo la
estadística plantea métodos mediante los cuales con una elección adecuada del tamaño de muestra podemos
predecir a partir de una muestra las preferencias que tienen los
estudiantes acerca del tipo de lectura.
Muestra de validación. Parte de la muestra total que se utiliza para
verificar los resultados de la muestra de estimación.
Muestra representativa. Muestra que contiene las características
importantes en las mismas proporciones en que están contenidas en la población.
Muestras apareadas. Otro nombre para las muestras dependientes.
Muestras dependientes. Muestras extraídas de dos poblaciones de tal manera
que los elementos de una muestra se equiparen con los elementos de las otras
muestras, con el fin de permitir un análisis más preciso al controlar los
factores externos.
Muestras independientes. Dos muestras que no están relacionadas en forma
experimental. La medición de una muestra no tiene ningún efecto en los valores
de la segunda muestra.
Muestras pareadas. En la prueba de hipótesis se parean las
observaciones de modo que los dos conjuntos de observación se relacionan con
los mismos sujetos.
2.2 Una
población es conjunto de elementos que tiene características comunes, al menos
una. Por ejemplo, una población es el grupo de estudiantes de un país.
En el caso particular de la
estadística la población constituye el objeto de estudio, es decir, la
población es el conjunto de individuos o entes que constituyen el objeto de
estudio sobre el que se desea predecir un comportamiento a partir del estudio.
Población. No es más que aquel
conjunto de individuos o elementos que le podemos observar, medir una
característica o atributo.
Ejemplos de población:
·
El conjunto
formado por todos los estudiantes de la Universidad Yacambú
·
El conjunto de
todos los niños menores de seis (6) años.
·
El conjunto de
personas fumadoras de una región.
Son características medibles u
observables de cada elemento por ejemplo, su estatura, su peso, edad, sexo,
etc.
Supongamos que nos interesa conocer
el peso promedio de la población formada por los estudiantes de la universidad.
Si la universidad tiene 5376 alumnos, bastaría pesar cada estudiante, sumar los
5376 pesajes y dividirlo por 5376. Pero este proceso puede presenta
dificultades dentro de las que podemos mencionar:
·
localizar y
pesar con precisión cada estudiante:
·
escribir todos
los datos sin equivocaciones en una lista:
·
efectuar los
cálculos.
3.-
Diferencia entre Muestra y Población.
El tamaño de la población es la
cantidad de elementos de esta y el tamaño de la muestra es la cantidad de
elementos de la muestra. Las poblaciones pueden ser finitas e infinitas.
Los datos obtenidos de una población
pueden contener toda la información que se desee de ella. De lo que se trata es
de extraerle esa información a la muestra,
es decir a los datos muéstrales sacarle toda la información de la población.
4.-
Técnicas de Muestreo.
Fundamentalmente existen
dos técnicas de muestro estas son las probabilísticas y las no probabilísticas.
·
Muestreos
Probabilísticas:
o
Aleatorio Simple
o
Aleatorio
Sistemático
o
Estratificado
o
por
Conglomerados
o
Polietápico
o
por Ruta
Aleatoria
·
Muestreos No Probabilísticos:
o
de Conveniencia
o
de Juicios
o
por Cuotas
o
de Bola de Nieve
o
Discrecional
Muestreo aleatorio simple. Métodos de selección de muestras que permiten a
cada muestra posible una probabilidad igual de ser elegida y a cada elemento de
la población una oportunidad igual de ser incluidos en la muestra.
Muestreo aleatorio. Las técnicas de muestreo aleatorio aseguran que
cada elemento en la población de interés tenga una probabilidad (no nula) de
ser incluido en la muestra.
Muestreo bola de nieve. Técnica de muestreo no probabilística en que se
selecciona al azar un grupo inicial de entrevistados. Los entrevistados
subsecuentes se eligen con base en las referencias o la información que
proporcionan los entrevistados iniciales. Con la obtención de referencias, este
proceso puede llevarse a cabo en forma sucesiva.
Muestreo con reemplazo. Procedimiento de muestreo en el que los elementos
se regresan a la población después de ser elegidos, de tal forma que algunos
elementos de la población pueden aparecer en la muestra más de una vez.
Muestreo de aceptación. Procedimiento utilizado para decidir si se acepta o
se rechaza una remesa de materias primas, basándose en la calidad de una
muestra tomadas de dicha remesa.
Muestreo de aleatorio. Método para seleccionar una muestre de una
población en el que todos los elementos de la población tienen igual
oportunidad de ser elegidos en la muestra.
Muestreo de áreas. Forma común de muestreo de conglomerados en la que
éstos consisten en áreas geográficas como distritos, segmentos censales,
cuadras u otras descripciones de áreas.
Muestreo de encuestas. Estudia los métodos para seleccionar y observar una
parte (muestra) de la población con el fin de hacer inferencias acerca de toda
la población.
Muestreo de juicio. Método para seleccionar una muestra de una población
en el que se usa el conocimiento o la experiencia personal para identificar
aquellos elementos de la población que deben incluirse en la muestra.
Muestreo de racimo. Método de muestreo aleatorio en el que la población
se divide en grupos o racimos de elementos, luego se selecciona una muestra
aleatoria de estos racimos.
Muestreo estratificado no
proporcionado. Muestreo en el cual el
tamaño total de la muestra se distribuye en estratos en forma no proporcionada
con respecto al tamaño de la población de los estratos.
Muestreo estratificado. Método de muestreo aleatorio en el que la población
se divide en grupos homogéneos, o estratos, y los elementos dentro de cada
estrato se seleccionan al azar de acuerdo con una de dos reglas: 1) Un número
específico de elementos se extrae de cada estrato correspondiente a la porción
de ese estrato en la población, o 2) igual número de elementos se extraen de
cada estrato, y los resultados son valorados de acuerdo con la porción del
estrato de la población total.
Muestreo no probabilística. Técnicas de muestreo que no utilizan procedimientos
de selección por casualidad, sino que más bien dependen del juicio personal del
investigador.
Muestreo por conglomerados. Técnica de muestreo probabilística en la que la
población meta se divide primero en subpoblaciones mutuamente excluyentes y
colectivamente exhaustivas, llamados conglomerados, y después se selecciona una
muestra aleatoria de conglomerados con base en una técnica de muestreo
probabilística como el muestreo aleatorio simple. Para cada conglomerado
seleccionado, se incluyen todos los elementos en la muestra o se toma una
muestra de elementos en forma probabilística.
Muestreo por conveniencia. Técnica de muestreo no probabilística que trata de
obtener una muestra de elementos convenientes. La selección de las unidades de
muestra se deja principalmente al entrevistador.
Muestreo por cuota. Técnica de muestreo no probabilística que es un
muestreo por juicio restringido de dos etapas. La primera etapa consiste en el
desarrollo de categorías de control o cuotas de los elementos de la población.
En la segunda etapa, los elementos de la muestra se seleccionan con base en la
conveniencia o el juicio.
Muestreo por juicio. Forma de muestreo por conveniencia en la cual los
elementos de la población se seleccionan de manera intencional con base en el
juicio del investigador.
Muestreo probabilística
proporcional al tamaño. Método de
selección en el que la probabilidad de elegir una unidad de muestra en un grupo
seleccionado en un grupo seleccionado varía en forma inversa con el tamaño del
grupo. Por tanto, el tamaño de los grupos resultantes es aproximadamente igual.
Muestreo probabilística. Procedimiento de muestreo en el cual cada elemento
de la población tiene una oportunidad probabilística fija de ser seleccionado
para la muestra.
Muestreo secuencial. Técnica de muestreo probabilística en la que los
elementos de la población se incluyen en la muestra en forma secuencial, la
recopilación y el análisis de datos se realizan en cada etapa y se toma la
decisión sobre si deben incluirse en la muestra elementos adicionales de la
población.
Muestreo sin reemplazo. Procedimiento de muestreo en el que los elementos
no se regresan a la población después de ser elegidos, de tal forma que ningún
elemento de la población puede aparecer en la muestra de una vez.
Muestreo sistemático. Un método de muestreo aleatorio usado en
estadística en el que los elementos que se muestran seleccionando de la
población en un intervalo uniforme que se mide con respecto al tiempo, al orden
o el espacio.
Muestro sistemático. Técnica de muestreo probabilística en que la
muestra se elige mediante la selección de un punto de inicial aleatorio y
después la elección de cada k-ésimo elemento en sucesión a partir del marco de
la muestra.
Muestro doble. Técnica de muestreo en la que ciertos elementos de
la población se incluyen dos veces en la muestra.
Muestro estratificado
proporcionado. Muestreo estratificado en
el cual el número de elementos que se extrae de cada estrato es proporcional al
número relativo de elementos de cada estrato de la población.
5.-
Estadístico y Parámetro:
5.1 Estadístico es el término
que se utiliza para designar al profesional que se dedica al análisis de la
información estadística, al que en ocasiones también se le conoce como
estadígrafo.
5.2 Parámetro: Es una medida de
resumen que se calcula para describir una característica de toda una población.
6.-
Distribución en el Muestreo de
Distribución de la muestra. La distribución de los valores de la estadística de
una muestra (calculada para cada muestra posible), que pueda tomarse de la
población meta de acuerdo con un plan de muestreo específico.
Distribución de muestreo de
la media. Una distribución de
probabilidad de todas las medias posibles de muestras de un tamaño dado, n, de
una población.
Si se extrae una muestra al azar de tamaño n, de una población infinita con media µ y una
varianza σ2, entonces las observaciones de la muestra son
variables aleatorias independientes e idénticamente distribuidas. La medida de
la muestra, calculada como:
ā = 1/n (X1 + X2 +
• • • + Xn)
Que es una combinación lineal de
variables aleatorias dividida por una constante, que también es una variable
aleatoria normal, y el valor esperado y la varianza de la distribución por
muestreo de puede derivarse sencillamente.
Primero, observamos que:
E(ā) = E[1/n (X1 + X2 + • • • + Xn)]
= 1/n[E(X1 )+E(
X2 )+ • • • + E(Xn)]
=1/n (n μ ) = μ
Es decir, esperanza de la media de
la muestra es la media de la población.
Luego, puesto que se considera que
las observaciones de la muestra son variables aleatorias independientes, la
propiedad de aditividad se verifica para la varianza. Es decir, la varianza de
la suma es la suma de las varianzas. Además, puesto que V(xi )= σ2 tenemos:
V(ā) = V(1/nΣ xi)1/n2[V(X1 )+V( X2 )+ • • • + V(Xn)]
= 1/n2 (nσ2) σ2/n
En esta derivación hemos empleado el
teorema de que la varianza de una constante multiplicado por una variable es
igual al cuadrado de la constante multiplicado por la varianza de la variable.
El error estándar de la media, mide la variabilidad entre medias muéstrales.
Σa = (V(ā))1/2=
σ/(n)1/2
7.-
Teorema Central del Límite
Teorema del límite
central: es un teorema a través del cual se asegura que la distribución de
muestreo de la media se aproxima a la normal, al incrementarse el tamaño de la
muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los
parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de
esa población más que lo que podamos obtener de la muestra. Para efectos
prácticos el tamaño de la muestra debe ser n
Nota: si la distribución
de la población es bastante simétrica, la distribución muestral de la media se
aproxima a la normal si se seleccionan muestras pequeñas.
Si se obtiene una muestra de una población normal, entonces la media muestral tiene una distribución normal sin importar el tamaño de la muestra. Sin embargo, se puede demostrar que de hecho no importa el modelo de probabilidad del cual se obtenga la muestra; mientras la media y la varianza existan, la distribución de muestreo de `X se aproximará a una distribución normal conforme n aumente.
En muchos
casos, puede concluirse en forma segura que
la aproximación será buena
mientras n > 30.
Para mostrar la validez del teorema
del límite central veamos el siguiente ejemplo
Suponga que de una población
consistente en los valores 0, 2, 4, 6 y 8, se toman muestras de tamaño 2 con reemplazo.
X |
Frecuencia |
Frecuencia Relativa |
0 |
1 |
1/5 = .2 |
2 |
1 |
1/5 = .2 |
4 |
1 |
1/5 = .2 |
6 |
1 |
1/5 = .2 |
8 |
1 |
1/5 = .2 |
Solución:
Se calcula
la media poblacional, la varianza y
desviación estándar poblacional.
μ = Σn X/N
μ =
(0+2+4+6+8)/5 = 20/5 = 4
σ2 = Σ (X – μ) 2/N
σ2 = ((0-4)^2 + (2-2)^2 + (4-4)^2 + (6-4)^2
+(8-4)^2)/5
=40/5 = 8;
entonces σ = Raiz Cuadrada (8) = 2.83
8.-
Aplicaciones Teorema Central del Limite
Una aplicación muy
corriente y útil de la distribución muestral es determinar la probabilidad de
que la media de una muestra caiga dentro de un intervalo determinado. Puesto
que la distribución muestral seguirá una distribución normal (ya sea porque la
muestra se toma de una distribución normal, o porque n teorema del límite
central garantice la normalidad en el proceso de muestreo), se podrá utilizar
la variable tipificada para obtener la información necesaria en la toma de
decisiones.
9.-
Estimación de Parámetros
La
estimación de parámetros consiste en el cálculo aproximado del valor de un
parámetro en la población, utilizando la inferencia estadística, a partir de
los valores observados en la muestra estudiada. Para el cálculo del tamaño de
la muestra en una estimación de parámetros son necesarios los conceptos de
Intervalo de confianza, variabilidad del parámetro, error, nivel de confianza,
valor crítico y valor alfa.
10.-
Estimación puntual y por Intervalos
Un estimador de un parámetro poblacional es una
función de los datos muéstrales. En pocas palabras, es una fórmula que depende
de los valores obtenidos de una muestra, para realizar estimaciones.
Para un tamaño fijo de la muestra, los conceptos de
error y nivel de confianza van relacionados. Si admitimos un error mayor, esto
es, aumentamos el tamaño del intervalo de confianza, tenemos también una mayor
probabilidad de éxito en nuestra estimación, es decir, un mayor nivel de
confianza.
11.-
Error Probable
Medida de la variabilidad del muestreo, igual a
0,6745 veces el error típico. La mitad de una muestra distribuida normalmente
queda dentro del intervalo definido por la media ± 0,6745 desviaciones típicas.
Raíz cuadrada positiva de la varianza de la
distribución de muestreo de un parámetro estadístico.
12.-
Calculo del tamaño de la muestra
A la hora de determinar el tamaño
que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo
de muestreo, el parámetro a estimar, el error muestral admisible, la varianza
poblacional y el nivel de confianza. Por ello antes de presentar algunos casos
sencillos de cálculo del tamaño muestral delimitemos estos factores.
Parámetro. Son las medidas o datos que se
obtienen sobre la población.
Estadístico. Los datos o medidas que se
obtienen sobre una muestra y por lo tanto una estimación de los parámetros.
Error
Muestral, de
estimación o estándar. Es la diferencia entre un estadístico y su parámetro
correspondiente. Es una medida de la variabilidad de las estimaciones de
muestras repetidas en torno al valor de la población, nos da una noción clara
de hasta dónde y con qué probabilidad una estimación basada en una muestra se
aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre
se comete un error, pero la naturaleza de la investigación nos indicará hasta
qué medida podemos cometerlo (los resultados se someten a error muestral e
intervalos de confianza que varían muestra a muestra). Varía según se calcule
al principio o al final. Un estadístico será más preciso en cuanto y tanto su error
es más pequeño. Podríamos decir que es la desviación de la distribución
muestral de un estadístico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimación
efectuada se ajuste a la realidad. Cualquier información que queremos recoger
está distribuida según una ley de probabilidad (Gauss o Student), así llamamos
nivel de confianza a la probabilidad de que el intervalo construido en torno a
un estadístico capte el verdadero valor del parámetro.
Varianza Poblacional. Cuando una población es más
homogénea la varianza es menor y el número de entrevistas necesarias para
construir un modelo reducido del universo, o de la población, será más pequeño.
Generalmente es un valor desconocido y hay que estimarlo a partir de datos de
estudios previos.
13.-
Error Tipo I. Error Tipo II
Error tipo 1.
Error que se presenta cuando los resultados de la muestra llevan al rechazo de
la hipótesis nula que en realidad es verdadero. También se conoce como error
alfa.
Error tipo 2.
Error que se presenta cuando los resultados de la muestra llevan a la
aceptación de la hipótesis nula que en realidad es falso. También se conoce
como error beta.
14.-
Nivel de Significación.
Nivel de significancia. Valor que indica el porcentaje de valores de
muestra que están fuera ce ciertos límites, suponiendo que la hipótesis nula es
correcta, es decir, se trata de la probabilidad
de rechazar la hipótesis nula cuando es cierta.
Para conocer el tamaño de la muestra en un estudio de
investigación en el que queremos conocer las diferencias existentes entre dos
hipótesis, debemos conocer previamente:
Error
tipo I y tipo II: Hay que establecer
el riesgo de cometer un error de tipo I que se está dispuesto a aceptar.
Normalmente de forma arbitraria se acepta un riesgo del 5%. Además hay que
establecer el riesgo que se acepta de cometer un error tipo II, que suele ser
entre el 5 y el 20%. El error tipo I también es conocido como hipótesis nula, y
el error tipo II, como hipótesis alternativa.
Si
la hipótesis es unilateral o bilateral:
El planteamiento de una hipótesis bilateral o "de dos colas" requiere
mayor tamaño muestral.
Definir
Conocer
la variabilidad del criterio de evaluación en la población.
Para calcular el número de sujetos necesarios en cada
una de las muestras (n), debemos prefijar:
1,96 = Valor Z correspondiente al riesgo deseado.
1,96 = Valor Z correspondiente al riesgo deseado, si es
de dos colas.
0,13 = Valor de la proporción en el grupo de referencia,
placebo, control o tratamiento habitual.
0,44 = Valor de la proporción en el grupo del nuevo
tratamiento, intervención o técnica.
0,29 = Media de las dos proporciones p1
y p2.
La asociación entre dos variables cuantitativas
necesita normalmente la utilización del coeficiente de correlación r de
Pearson.
Una
hipótesis estadística es una afirmación respecto a alguna característica
de una población. Contrastar una hipótesis es comparar las
predicciones con la realidad que observamos. Si dentro del margen de error que
nos permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en caso
contrario la rechazaremos:
Aquí
nos vamos a limitar a estudiar hipótesis sobre la media y sobre la proporción
en una población. En cada caso se trabaja con un contraste bilateral y otro
unilateral. Los contrastes unilaterales son de distinta dirección en cada
ejemplo, pero el método a seguir es análogo para ambos.
Grados de libertad. Número de valores de una muestra que podemos especificar libremente,
después de que ya sabemos algo sobre dicha muestra.
Distribución t de Student:
La prueba de la t de Student en su cálculo no tiene mayor dificultad,
sin embargo, requiere de ciertas asunciones que a menudo no se suelen
verificar, pudiendo llegar a conclusiones erróneas según veremos:
Asunciones de la prueba t de Student
Técnicamente se puede describir la prueba t de Student como
aquella que se utiliza en un modelo en el que una variable explicativa (variable
independiente) dicotómica intenta explicar una variable respuesta (variable dependiente)
dicotómica.
Es decir en la situación: dicotómica explica dicotómica.
La prueba t de Student como todos los estadísticos de contraste se
basa en el cálculo de estadísticos descriptivos previos: el número de
observaciones, la media y la desviación típica en cada grupo. A través de estos
estadísticos previos se calcula el estadístico de contraste experimental. Con
la ayuda de unas tablas se obtiene a partir de dicho estadístico el p-valor.
Si p<0,05 se concluye que hay
diferencia entre los dos tratamientos.
Las hipótesis o asunciones para poder
aplicar la t de Student son que en cada grupo la variable estudiada siga una
distribución Normal y que la dispersión en ambos grupos sea homogénea
(hipótesis de homocedasticidad = igualdad de varianzas). Si no se verifica que se cumplen estas
asunciones los resultados de la prueba t de Student no tienen ninguna validez.
Por otra parte no es obligatorio que los tamaños de los grupos
sean iguales, ni tampoco es necesario conocer la dispersión de los dos grupos.
¿Qué hacer cuando las asunciones no se cumplen?
Existen varias pruebas estadísticas para contrastar
En el caso de que no se cumpla la asunción de Normalidad se suele
intentar alguna transformación de los datos que "normalice" los
datos, siendo la transformación logaritmo neperiano la más usual. Ocurre en la
práctica que la transformación que "normaliza" los datos también
consigue igualdad de varianzas. En el caso de que no se diera la hipótesis de
igualdad de varianzas ni siquiera después de transformar los datos, hay que
utilizar una modificación de la prueba t de Student debida a Satterthwaite que
es válida para el caso de no homogeneidad de varianzas.
Ejemplo
Se supone que se quiere comparar dos tratamientos con relación a
una variable cuantitativa. Los datos experimentales son:
Trat A: 25, 24, 25, 26
Trat B: 23, 18, 22, 28, 17, 25, 19, 16
Si se aplica la t de Student directamente se obtiene una
p=0,096>0,05 con lo que se concluye que no se puede demostrar diferencias
entre los dos tratamientos. Sin embargo la prueba de Levene pone de manifiesto
que p=0,014<0,05 con lo que se concluye que en estos datos no se verifica la
igualdad de varianzas, con lo que la conclusión anterior queda en suspenso.
Tras aplicar Satterthwaite, que es válido en este caso de heterocedasticidad,
se obtiene que p=0,032<0,05 con lo que la conclusión correcta es que sí hay
diferencia entre los dos tratamientos.
La prueba t de Student es muy utilizada en la práctica, sin
embargo a menudo su aplicación se hace sin excesivo cuidado, no comprobando las
asunciones que requiere. En este artículo se ha puesto de manifiesto que la
falta de normalidad o la falta de homogeneidad en las varianzas invalidan la
prueba t de Student
16.-
Aplicaciones de los contrastes de Hipótesis
Como se afirmó anteriormente: El contraste de
hipótesis (también denominado test de hipótesis o prueba de
significación) es una técnica de inferencia estadística para juzgar si una
propiedad que se supone cumple una población estadística es compatible con lo
observado en una muestra de dicha población.
Por ejemplo, si sospechamos que una moneda ha sido
trucada para que se produzcan más caras que cruces al lanzarla al aire,
podríamos realizar 30 lanzamientos, tomando nota del número de caras obtenidas.
Si obtenemos un valor demasiado alto, por ejemplo 25 o más, consideraríamos que
el resultado es poco compatible con la hipótesis de que la moneda no está
trucada, y concluiríamos que las observaciones contradicen dicha hipótesis.
La aplicación de cálculos probabilísticos permiten
determinar a partir de qué valor debemos rechazar la hipótesis garantizando que
la probabilidad de cometer un error es un valor conocido a priori.
Las hipótesis pueden clasificarse en dos grupos,
según:
Un ejemplo del primer grupo es la hipótesis de que la
media de una variable es 10, y del segundo que la distribución de probabilidad
es la distribución normal.
Aunque la metodología para realizar el contraste de
hipótesis es análoga en ambos casos, distinguir ambos tipos de hipótesis es
importante puesto que muchos problemas de contraste de hipótesis respecto a un
parámetro son, en realidad, problemas de estimación, que tienen una respuesta
complementaria dando un intervalo de confianza (o conjunto de intervalos de
confianza) para dicho parámetro. Sin embargo, las hipótesis respecto a la forma
de la distribución se suelen utilizar para validar un modelo estadístico para
un fenómeno aleatorio que se está estudiando.
Los contrastes de hipótesis, como la inferencia
estadística en general, son herramientas de amplio uso en la ciencia en
general. En particular, la moderna Filosofía de la ciencia desarrolla el
concepto de falsabilidad de las teorías científicas basándose en los conceptos
de la inferencia estadística en general y de los contrastes de hipótesis. En
este contexto, cuando se desea optar entre dos posibles teorías científicas
para un mismo fenómeno (dos hipótesis) se debe realizar un contraste
estadístico a partir de los datos disponibles sobre el fenómeno que permitan
optar por una u otra.
Las técnicas de contraste de hipótesis son también de
amplia aplicación en muchos otros casos, como ensayos clínicos de nuevos
medicamentos, control de calidad, encuestas, etc.
INFOGRAFIA:
1.
http://html.rincondelvago.com/estadistica_6.html
2.
http://dieumsnh.qfb.umich.mx/estadistica/glosario.htm
3.
http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/estadisticadescriptiva.html
4.
http://www.estudiagratis.com/showCourse.php?a=10147&b=1&h=E15EF20B65B64441769D26A3FBCFFFF3
5.
http://docentes.uacj.mx/lvalenzu/Estadistica/PROBLEMAS%20PROPUESTOS%20DE%20ESTIMACION%20PARA%20LA%20MEDIA%20CON%20VARIANZA%20POBLACIONAL%20CONOCIDA.doc
6. http://www.so.ucr.ac.cr/Enlaces/Estadistica/problemas/
7.
http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos5.html
8.
http://www.cesma.usb.ve/~giselle/FC1623/guiaestiiCapituloII.prn.pdf
9.
http://www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.7/p3.html
10.
http://www.cig.ensmp.fr/~hubert/glu/ES/GF1200ES.HTM
11.
http://iaci.unq.edu.ar/Materias/ins_med/archivos/Instymed_t1.pdf
12.
http://html.rincondelvago.com/contraste-de-hipotesis_1.html
13.
http://usuarios.lycos.es/guillemat/t_student.htm