UNIVERSIDAD YACAMBU

Licenciatura Virtual en Contaduría Pública.

Prof. Sandi Quintero.

Participante: Nelson Torcate Méndez

Trabajo Nº 3: Estadística Inferencial

Muestreo Aleatorio – Decisiones Estadísticas.

INTRODUCCIÓN:

Se presenta el presente trabajo como requisito de la asignatura Estadística Inferencial, con la finalidad adquirir los conocimientos que permitirán conformar la base estadística para predecir eventos futuros, para lo cual se debe estudiar situaciones actuales aplicando métodos, herramientas y técnicas estadísticas para analizar información, de un volumen importante de datos, de interés, para la Gerencia Estratégica de las organizaciones. Este trabajo se estructuro de la siguiente forma y con el siguiente contenido: Diferencia entre Estadística Descriptiva e Inferencial. Muestras y población; diferencia entre muestra y población; técnicas de muestreo; estadístico y parámetro; distribución en el muestreo de la media y varianza; teorema central del límite; aplicaciones teorema central del límite; estimación de parámetros; estimación puntual y por intervalos; intervalos de confianza; error probable; calculo del tamaño de la muestra; relación entre el tamaño de la muestra y el error probable; error tipo I. error tipo II; nivel de significación; contraste de hipótesis entre un estadístico y un parámetro con muestras grandes; contraste sobre la diferencia de las medias de 2 muestras grandes; distribución T de Student, grados de Libertad; contraste de hipótesis entre un estadístico y un parámetro en muestras pequeñas, contrastes sobre la diferencia; aplicaciones de los contrastes de Hipótesis.

RESUMEN:

El trabajo de investigación presenta en forma muy sucinta los principales conceptos sobre Muestreo aleatorio y Decisión estadística, entendiéndose a este como: Las técnicas que aseguran a cada elemento en la población de interés tenga una probabilidad (no nula) de ser incluido en la muestra. Se revisa el concepto de estadística descriptiva y de estadística inferencial estableciéndose entre estas dos ramas como principal diferencia que la primera trabaja fundamentalmente en la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos; y la segunda se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo, población, partiendo de lo específico, muestra las cuales llevan implícitos una serie de riesgos. Para que éstas generalizaciones sean válidas la muestra deben ser representativa de la población y la calidad de la información debe ser controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad que con que se pueden cometer esos errores.

Igualmente se hace un recorrido sobre diferentes técnicas estadísticas que permiten una correcta y oportuna toma de decisiones entre estas vale la pena resaltar la técnica conocida como contraste de Hipótesis o test de hipótesis que no es otra cosa que un método de inferencia estadístico para juzgar si una propiedad que se supone cumple una población estadística es compatible con lo observado en una muestra de dicha población.

DESARROLLO:

Muestreo Aleatorio - Decisión Estadística

1.- Diferencia entre Estadística Descriptiva e Inferencial.

1.1 Concepto de Estadística Descriptiva: Trata de describir y analizar un grupo dado sin sacar conclusiones para un grupo mayor. Trabaja en poblaciones, no en muestras propiamente dichas.

En la descripción y análisis de los individuos, que son el objeto de la estadística descriptiva, esta utiliza el siguiente método:

a) Selección de caracteres: Dignos de estudio.

b) Análisis de cada carácter. Este análisis consiste en: Examinar cada individuo y anotar el valor de cada carácter; establecer las clases de individuos que se desean distinguir respecto a ese carácter; clasificar y contar los individuos incluidos en cada clase y calcular determinados valores numéricos (los parámetros estadísticos) a partir de los datos contenidos en las distribuciones anteriores.

Utiliza representaciones gráficas para dar a conocer los resultados de los análisis, se utilizan con frecuencia datos tabulados en el apartado anterior.

1.2 Concepto de Estadística Inferencial: Conjunto de métodos utilizados para saber algo acerca de una población, basándose en una muestra

Sirve extrapolar los resultados obtenidos en el análisis de los datos y a partir de ello predecir acerca de la población, con un margen de confianza conocido. Se apoya fuertemente mediante el cálculo de probabilidades.

1.3 Diferencias entre Estadística Descriptiva e Inferencial.

Estadística Descriptiva se refiere a la recolección, presentación, descripción, análisis e interpretación de una colección de datos, esencialmente consiste en resumir éstos con uno o dos elementos de información (medidas descriptivas) que caracterizan la totalidad de los mismos. La estadística Descriptiva es el método de obtener de un conjunto de datos conclusiones sobre si mismos y no sobrepasan el conocimiento proporcionado por éstos. Puede utilizarse para resumir o describir cualquier conjunto ya sea que se trate de una población o de una muestra, cuando en la etapa preliminar de la Inferencia Estadística se conocen los elementos de una muestra.

Por su parte la Estadística Inferencial se refiere al proceso de lograr generalizaciones acerca de las propiedades del todo, población, partiendo de lo específico, muestra las cuales llevan implícitos una serie de riesgos. Para que éstas generalizaciones sean válidas la muestra deben ser representativa de la población y la calidad de la información debe ser controlada, además puesto que las conclusiones así extraídas están sujetas a errores, se tendrá que especificar el riesgo o probabilidad que con que se pueden cometer esos errores. La estadística inferencial es el conjunto de técnicas que se utiliza para obtener conclusiones que sobrepasan los límites del conocimiento aportado por los datos, busca obtener información de un colectivo mediante un metódico procedimiento del manejo de datos de la muestra.

En sus particularidades la Inferencia distingue la Estimación y la Contrastación de Hipótesis. Es estimación cuando se usan las características de la muestra para hacer inferencias sobre las características de la población. Es contrastación de hipótesis cuando se usa la información de la muestra para responder a interrogantes sobre la población.

2.- Muestras y Población.

2.1 Muestra. Colección de algunos elementos, pero no de todos, de la población bajo estudio, utilizada para describir poblaciones.

Una muestra es un subconjuntos de datos tomados de la población, cuya finalidad es la de realizar inferencias acerca de la población a partir del comportamiento de sus elementos. Es claro que si la muestra es un subconjunto de la población entonces la muestra tendrá un número menor de elementos. La naturaleza de la muestra radica en la optimización de los recursos, por ejemplo, si deseamos hacer un estudio acerca de las lecturas que a los estudiantes del Estado Lara les gusta leer, el estudio implicaría considerar a los estudiantes de lugares remotos, resultando difícil desde el punto de vista económico, sin embargo la estadística plantea métodos mediante los cuales con una elección adecuada del tamaño de muestra podemos predecir a partir de una muestra las preferencias que tienen los estudiantes acerca del tipo de lectura.

Muestra de validación. Parte de la muestra total que se utiliza para verificar los resultados de la muestra de estimación.

Muestra representativa. Muestra que contiene las características importantes en las mismas proporciones en que están contenidas en la población.

Muestras apareadas. Otro nombre para las muestras dependientes.

Muestras dependientes. Muestras extraídas de dos poblaciones de tal manera que los elementos de una muestra se equiparen con los elementos de las otras muestras, con el fin de permitir un análisis más preciso al controlar los factores externos.

Muestras independientes. Dos muestras que no están relacionadas en forma experimental. La medición de una muestra no tiene ningún efecto en los valores de la segunda muestra.

Muestras pareadas. En la prueba de hipótesis se parean las observaciones de modo que los dos conjuntos de observación se relacionan con los mismos sujetos.

2.2 Una población es conjunto de elementos que tiene características comunes, al menos una. Por ejemplo, una población es el grupo de estudiantes de un país.

En el caso particular de la estadística la población constituye el objeto de estudio, es decir, la población es el conjunto de individuos o entes que constituyen el objeto de estudio sobre el que se desea predecir un comportamiento a partir del estudio.

Población. No es más que aquel conjunto de individuos o elementos que le podemos observar, medir una característica o atributo.

Ejemplos de población:

· El conjunto formado por todos los estudiantes de la Universidad Yacambú

· El conjunto de todos los niños menores de seis (6) años.

· El conjunto de personas fumadoras de una región.

Son características medibles u observables de cada elemento por ejemplo, su estatura, su peso, edad, sexo, etc.

Supongamos que nos interesa conocer el peso promedio de la población formada por los estudiantes de la universidad. Si la universidad tiene 5376 alumnos, bastaría pesar cada estudiante, sumar los 5376 pesajes y dividirlo por 5376. Pero este proceso puede presenta dificultades dentro de las que podemos mencionar:

· localizar y pesar con precisión cada estudiante:

· escribir todos los datos sin equivocaciones en una lista:

· efectuar los cálculos.

3.- Diferencia entre Muestra y Población.

La Muestra es: subconjunto que seleccionamos de la población. y la Población: conjunto de todos los individuos que porten información sobre el fenómeno que se estudia.

El tamaño de la población es la cantidad de elementos de esta y el tamaño de la muestra es la cantidad de elementos de la muestra. Las poblaciones pueden ser finitas e infinitas.

Los datos obtenidos de una población pueden contener toda la información que se desee de ella. De lo que se trata es de extraerle esa información a la muestra, es decir a los datos muéstrales sacarle toda la información de la población.

4.- Técnicas de Muestreo.

Fundamentalmente existen dos técnicas de muestro estas son las probabilísticas y las no probabilísticas.

· Muestreos Probabilísticas:

o Aleatorio Simple

o Aleatorio Sistemático

o Estratificado

o por Conglomerados

o Polietápico

o por Ruta Aleatoria

· Muestreos No Probabilísticos:

o de Conveniencia

o de Juicios

o por Cuotas

o de Bola de Nieve

o Discrecional

Muestreo aleatorio simple. Métodos de selección de muestras que permiten a cada muestra posible una probabilidad igual de ser elegida y a cada elemento de la población una oportunidad igual de ser incluidos en la muestra.

Muestreo aleatorio. Las técnicas de muestreo aleatorio aseguran que cada elemento en la población de interés tenga una probabilidad (no nula) de ser incluido en la muestra.

Muestreo bola de nieve. Técnica de muestreo no probabilística en que se selecciona al azar un grupo inicial de entrevistados. Los entrevistados subsecuentes se eligen con base en las referencias o la información que proporcionan los entrevistados iniciales. Con la obtención de referencias, este proceso puede llevarse a cabo en forma sucesiva.

Muestreo con reemplazo. Procedimiento de muestreo en el que los elementos se regresan a la población después de ser elegidos, de tal forma que algunos elementos de la población pueden aparecer en la muestra más de una vez.

Muestreo de aceptación. Procedimiento utilizado para decidir si se acepta o se rechaza una remesa de materias primas, basándose en la calidad de una muestra tomadas de dicha remesa.

Muestreo de aleatorio. Método para seleccionar una muestre de una población en el que todos los elementos de la población tienen igual oportunidad de ser elegidos en la muestra.

Muestreo de áreas. Forma común de muestreo de conglomerados en la que éstos consisten en áreas geográficas como distritos, segmentos censales, cuadras u otras descripciones de áreas.

Muestreo de encuestas. Estudia los métodos para seleccionar y observar una parte (muestra) de la población con el fin de hacer inferencias acerca de toda la población.

Muestreo de juicio. Método para seleccionar una muestra de una población en el que se usa el conocimiento o la experiencia personal para identificar aquellos elementos de la población que deben incluirse en la muestra.

Muestreo de racimo. Método de muestreo aleatorio en el que la población se divide en grupos o racimos de elementos, luego se selecciona una muestra aleatoria de estos racimos.

Muestreo estratificado no proporcionado. Muestreo en el cual el tamaño total de la muestra se distribuye en estratos en forma no proporcionada con respecto al tamaño de la población de los estratos.

Muestreo estratificado. Método de muestreo aleatorio en el que la población se divide en grupos homogéneos, o estratos, y los elementos dentro de cada estrato se seleccionan al azar de acuerdo con una de dos reglas: 1) Un número específico de elementos se extrae de cada estrato correspondiente a la porción de ese estrato en la población, o 2) igual número de elementos se extraen de cada estrato, y los resultados son valorados de acuerdo con la porción del estrato de la población total.

Muestreo no probabilística. Técnicas de muestreo que no utilizan procedimientos de selección por casualidad, sino que más bien dependen del juicio personal del investigador.

Muestreo por conglomerados. Técnica de muestreo probabilística en la que la población meta se divide primero en subpoblaciones mutuamente excluyentes y colectivamente exhaustivas, llamados conglomerados, y después se selecciona una muestra aleatoria de conglomerados con base en una técnica de muestreo probabilística como el muestreo aleatorio simple. Para cada conglomerado seleccionado, se incluyen todos los elementos en la muestra o se toma una muestra de elementos en forma probabilística.

Muestreo por conveniencia. Técnica de muestreo no probabilística que trata de obtener una muestra de elementos convenientes. La selección de las unidades de muestra se deja principalmente al entrevistador.

Muestreo por cuota. Técnica de muestreo no probabilística que es un muestreo por juicio restringido de dos etapas. La primera etapa consiste en el desarrollo de categorías de control o cuotas de los elementos de la población. En la segunda etapa, los elementos de la muestra se seleccionan con base en la conveniencia o el juicio.

Muestreo por juicio. Forma de muestreo por conveniencia en la cual los elementos de la población se seleccionan de manera intencional con base en el juicio del investigador.

Muestreo probabilística proporcional al tamaño. Método de selección en el que la probabilidad de elegir una unidad de muestra en un grupo seleccionado en un grupo seleccionado varía en forma inversa con el tamaño del grupo. Por tanto, el tamaño de los grupos resultantes es aproximadamente igual.

Muestreo probabilística. Procedimiento de muestreo en el cual cada elemento de la población tiene una oportunidad probabilística fija de ser seleccionado para la muestra.

Muestreo secuencial. Técnica de muestreo probabilística en la que los elementos de la población se incluyen en la muestra en forma secuencial, la recopilación y el análisis de datos se realizan en cada etapa y se toma la decisión sobre si deben incluirse en la muestra elementos adicionales de la población.

Muestreo sin reemplazo. Procedimiento de muestreo en el que los elementos no se regresan a la población después de ser elegidos, de tal forma que ningún elemento de la población puede aparecer en la muestra de una vez.

Muestreo sistemático. Un método de muestreo aleatorio usado en estadística en el que los elementos que se muestran seleccionando de la población en un intervalo uniforme que se mide con respecto al tiempo, al orden o el espacio.

Muestro sistemático. Técnica de muestreo probabilística en que la muestra se elige mediante la selección de un punto de inicial aleatorio y después la elección de cada k-ésimo elemento en sucesión a partir del marco de la muestra.

Muestro doble. Técnica de muestreo en la que ciertos elementos de la población se incluyen dos veces en la muestra.

Muestro estratificado proporcionado. Muestreo estratificado en el cual el número de elementos que se extrae de cada estrato es proporcional al número relativo de elementos de cada estrato de la población.

5.- Estadístico y Parámetro:

5.1 Estadístico es el término que se utiliza para designar al profesional que se dedica al análisis de la información estadística, al que en ocasiones también se le conoce como estadígrafo.

5.2 Parámetro: Es una medida de resumen que se calcula para describir una característica de toda una población.

6.- Distribución en el Muestreo de la Media y Varianza:

Distribución de la muestra. La distribución de los valores de la estadística de una muestra (calculada para cada muestra posible), que pueda tomarse de la población meta de acuerdo con un plan de muestreo específico.

Distribución de muestreo de la media. Una distribución de probabilidad de todas las medias posibles de muestras de un tamaño dado, n, de una población.

Si se extrae una muestra al azar de tamaño n, de una población infinita con media µ y una varianza σ², entonces las observaciones de la muestra son variables aleatorias independientes e idénticamente distribuidas. La medida de la muestra, calculada como:

ā = 1/n (X₁+ X₂+ • • • + X_n)

Que es una combinación lineal de variables aleatorias dividida por una constante, que también es una variable aleatoria normal, y el valor esperado y la varianza de la distribución por muestreo de puede derivarse sencillamente.

Primero, observamos que:

E(ā) = E[1/n (X₁+ X₂+ • • • + X_n)]

= 1/n[E(X₁)+E( X₂)+ • • • + E(X_n)]

=1/n (n μ ) = μ

Es decir, esperanza de la media de la muestra es la media de la población.

Luego, puesto que se considera que las observaciones de la muestra son variables aleatorias independientes, la propiedad de aditividad se verifica para la varianza. Es decir, la varianza de la suma es la suma de las varianzas. Además, puesto que V(x_i )= σ² tenemos:

V(ā) = V(1/nΣ x_i)1/n²[V(X_{1 )}+V( X₂)+ • • • + V(X_n)]

= 1/n² (nσ²⁾ σ²/n

En esta derivación hemos empleado el teorema de que la varianza de una constante multiplicado por una variable es igual al cuadrado de la constante multiplicado por la varianza de la variable.

El error estándar de la media, mide la variabilidad entre medias muéstrales.

Σ_{a =}(V(ā))^1/2= σ/(n)^1/2

7.- Teorema Central del Límite

Teorema del límite central: es un teorema a través del cual se asegura que la distribución de muestreo de la media se aproxima a la normal, al incrementarse el tamaño de la muestra. Este teorema permite usar estadística de muestra para hacer inferencias con respecto a los parámetros de la población, sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de la muestra. Para efectos prácticos el tamaño de la muestra debe ser n

Nota: si la distribución de la población es bastante simétrica, la distribución muestral de la media se aproxima a la normal si se seleccionan muestras pequeñas.

Si se obtiene una muestra de una población normal, entonces la media muestral tiene una distribución normal sin importar el tamaño de la muestra. Sin embargo, se puede demostrar que de hecho no importa el modelo de probabilidad del cual se obtenga la muestra; mientras la media y la varianza existan, la distribución de muestreo de `X se aproximará a una distribución normal conforme n aumente.

En muchos casos, puede concluirse en forma segura que la aproximación será buena mientras n > 30.

Para mostrar la validez del teorema del límite central veamos el siguiente ejemplo

Suponga que de una población consistente en los valores 0, 2, 4, 6 y 8, se toman muestras de tamaño 2 con reemplazo.

X	Frecuencia	Frecuencia Relativa
0	1	1/5 = .2
2	1	1/5 = .2
4	1	1/5 = .2
6	1	1/5 = .2
8	1	1/5 = .2

Solución:

Se calcula la media poblacional, la varianza y desviación estándar poblacional.

μ = Σⁿ X/N

μ = (0+2+4+6+8)/5 = 20/5 = 4

σ² = Σ (X – μ)²/N

σ²= ((0-4)^2 + (2-2)^2 + (4-4)^2 + (6-4)^2 +(8-4)^2)/5

=40/5 = 8;

entonces σ = Raiz Cuadrada (8) = 2.83

8.- Aplicaciones Teorema Central del Limite

Una aplicación muy corriente y útil de la distribución muestral es determinar la probabilidad de que la media de una muestra caiga dentro de un intervalo determinado. Puesto que la distribución muestral seguirá una distribución normal (ya sea porque la muestra se toma de una distribución normal, o porque n teorema del límite central garantice la normalidad en el proceso de muestreo), se podrá utilizar la variable tipificada para obtener la información necesaria en la toma de decisiones.

9.- Estimación de Parámetros

La estimación de parámetros consiste en el cálculo aproximado del valor de un parámetro en la población, utilizando la inferencia estadística, a partir de los valores observados en la muestra estudiada. Para el cálculo del tamaño de la muestra en una estimación de parámetros son necesarios los conceptos de Intervalo de confianza, variabilidad del parámetro, error, nivel de confianza, valor crítico y valor alfa.

10.- Estimación puntual y por Intervalos

Un estimador de un parámetro poblacional es una función de los datos muéstrales. En pocas palabras, es una fórmula que depende de los valores obtenidos de una muestra, para realizar estimaciones.

10.1 Estimación puntual: Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos.

10.2 Estimación por intervalos: Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro estimado con una cierta probabilidad. En la estimación por intervalos se usan los siguientes conceptos:

Intervalo de confianza: Es una expresión del tipo [θ₁, θ₂] ó θ₁ ≤ θ ≤ θ₂, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza.

Variabilidad del parámetro: Si no se conoce, puede obtenerse una aproximación en los datos aportados por la literatura científica o en un estudio piloto. También hay métodos para calcular el tamaño de la muestra que prescinden de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviación típica poblacional y se denota σ.

Error de la estimación: Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas observaciones para la muestra, más error se comete al aumentar la precisión. Se suele llamar E, según la fórmula E = θ₂ - θ₁.

Límite de Confianza: Es la probabilidad de que el verdadero valor del parámetro estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por (1-α), aunque habitualmente suele expresarse con un porcentaje ((1-α)·100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de 0,05 y 0,01, respectivamente.

Valor α: También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-α). Por ejemplo, en una estimación con un nivel de confianza del 95%, el valor α es (100-95)/100 = 0,05.

Valor crítico: Se representa por Z_α_/2. Es el valor de la abscisa en una determinada distribución que deja a su derecha un área igual a α/2, siendo 1-α el nivel de confianza. Normalmente los valores críticos están tabulados o pueden calcularse en función de la distribución de la población. Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el valor crítico para α = 0,05 se calcularía del siguiente modo: se busca en la tabla de la distribución ese valor (o el más aproximado), bajo la columna "Área"; se observa que se corresponde con -0,64. Entonces Z_α_/2 = 0,64. Si la media o desviación típica de la distribución normal no coinciden con las de la tabla, se puede realizar el cambio de variable t=(X-μ)/σ para su cálculo.

Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo de confianza, tenemos también una mayor probabilidad de éxito en nuestra estimación, es decir, un mayor nivel de confianza.

11.- Error Probable

Medida de la variabilidad del muestreo, igual a 0,6745 veces el error típico. La mitad de una muestra distribuida normalmente queda dentro del intervalo definido por la media ± 0,6745 desviaciones típicas.

Raíz cuadrada positiva de la varianza de la distribución de muestreo de un parámetro estadístico.

12.- Calculo del tamaño de la muestra

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del tamaño muestral delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobre la población.

Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los parámetros.

Error Muestral, de estimación o estándar. Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varían muestra a muestra). Varía según se calcule al principio o al final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una ley de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.

13.- Error Tipo I. Error Tipo II

Error tipo 1. Error que se presenta cuando los resultados de la muestra llevan al rechazo de la hipótesis nula que en realidad es verdadero. También se conoce como error alfa.

Error tipo 2. Error que se presenta cuando los resultados de la muestra llevan a la aceptación de la hipótesis nula que en realidad es falso. También se conoce como error beta.

14.- Nivel de Significación.

Nivel de significancia. Valor que indica el porcentaje de valores de muestra que están fuera ce ciertos límites, suponiendo que la hipótesis nula es correcta, es decir, se trata de la probabilidad de rechazar la hipótesis nula cuando es cierta.

15.- Contraste de hipótesis

Para conocer el tamaño de la muestra en un estudio de investigación en el que queremos conocer las diferencias existentes entre dos hipótesis, debemos conocer previamente:

Error tipo I y tipo II: Hay que establecer el riesgo de cometer un error de tipo I que se está dispuesto a aceptar. Normalmente de forma arbitraria se acepta un riesgo del 5%. Además hay que establecer el riesgo que se acepta de cometer un error tipo II, que suele ser entre el 5 y el 20%. El error tipo I también es conocido como hipótesis nula, y el error tipo II, como hipótesis alternativa.

Si la hipótesis es unilateral o bilateral: El planteamiento de una hipótesis bilateral o "de dos colas" requiere mayor tamaño muestral.

Definir la Magnitud de la diferencia efecto o asociación que se desea detectar: A mayores diferencias preestablecidas en el planteamiento de la hipótesis, menor tamaño muestral, y a menor diferencia, mayor tamaño muestral.

Conocer la variabilidad del criterio de evaluación en la población.

Comparación de dos proporciones

Para calcular el número de sujetos necesarios en cada una de las muestras (n), debemos prefijar:

1,96 = Valor Z correspondiente al riesgo deseado.

1,96 = Valor Z correspondiente al riesgo deseado, si es de dos colas.

0,13 = Valor de la proporción en el grupo de referencia, placebo, control o tratamiento habitual.

0,44 = Valor de la proporción en el grupo del nuevo tratamiento, intervención o técnica.

0,29 = Media de las dos proporciones $p 1$ y $p 2$ .

Coeficiente de correlación

La asociación entre dos variables cuantitativas necesita normalmente la utilización del coeficiente de correlación r de Pearson.

Una hipótesis estadística es una afirmación respecto a alguna característica de una población. Contrastar una hipótesis es comparar las predicciones con la realidad que observamos. Si dentro del margen de error que nos permitimos admitir, hay coincidencia, aceptaremos la hipótesis y en caso contrario la rechazaremos:

La hipótesis emitida se suele designar por H_o y se llama Hipótesis nula porque parte del supuesto que la diferencia entre el valor verdadero del parámetro y su valor hipotético es debida al azar, es decir no hay diferencia.
La hipótesis contraria se designa por H₁ y se llama Hipótesis alternativa
Los contrastes pueden ser unilaterales o bilaterales (también llamados de una o dos colas) según establezcamos las hipótesis, si las definimos en términos de igual y distinto estamos ante una hipótesis unilateral, si suponemos una dirección (en términos de mayor o menor) estamos ante uno unilateral.
Se trata pues, de extraer conclusiones a partir de una muestra aleatoria y significativa, que permitan aceptar o rechazar una hipótesis previamente emitida, sobre el valor de un parámetro desconocido de la población. El método que seguiremos es el siguiente:

Enunciar la hipótesis
Elegir un nivel de significación a y construir la zona de aceptación, intervalo fuera del cual sólo se encuentran el a100% de los casos más raros. A la zona de rechazo la llamaremos región crítica, y su área es el nivel de significación.
Verificar la hipótesis extrayendo una muestra cuyo tamaño se ha decidido en el paso anterior y obteniendo de ella el correspondiente estadístico (media o proporción en nuestro caso).
Decidir. Si el valor calculado en la muestra cae dentro de la zona de aceptación se acepta la hipótesis y si no se rechaza.

Aquí nos vamos a limitar a estudiar hipótesis sobre la media y sobre la proporción en una población. En cada caso se trabaja con un contraste bilateral y otro unilateral. Los contrastes unilaterales son de distinta dirección en cada ejemplo, pero el método a seguir es análogo para ambos.

Grados de libertad. Número de valores de una muestra que podemos especificar libremente, después de que ya sabemos algo sobre dicha muestra.

Distribución t de Student:

La prueba de la t de Student en su cálculo no tiene mayor dificultad, sin embargo, requiere de ciertas asunciones que a menudo no se suelen verificar, pudiendo llegar a conclusiones erróneas según veremos:

Asunciones de la prueba t de Student

Técnicamente se puede describir la prueba t de Student como aquella que se utiliza en un modelo en el que una variable explicativa (variable independiente) dicotómica intenta explicar una variable respuesta (variable dependiente) dicotómica.

Es decir en la situación: dicotómica explica dicotómica.

La prueba t de Student como todos los estadísticos de contraste se basa en el cálculo de estadísticos descriptivos previos: el número de observaciones, la media y la desviación típica en cada grupo. A través de estos estadísticos previos se calcula el estadístico de contraste experimental. Con la ayuda de unas tablas se obtiene a partir de dicho estadístico el p-valor.

Si p<0,05 se concluye que hay diferencia entre los dos tratamientos.

Las hipótesis o asunciones para poder aplicar la t de Student son que en cada grupo la variable estudiada siga una distribución Normal y que la dispersión en ambos grupos sea homogénea (hipótesis de homocedasticidad = igualdad de varianzas). Si no se verifica que se cumplen estas asunciones los resultados de la prueba t de Student no tienen ninguna validez.

Por otra parte no es obligatorio que los tamaños de los grupos sean iguales, ni tampoco es necesario conocer la dispersión de los dos grupos.

¿Qué hacer cuando las asunciones no se cumplen?

Existen varias pruebas estadísticas para contrastar la Normalidad de los datos: la más utilizada la de Kolmogorov-Smirnov. De igual modo existen también varias pruebas que permiten contrastar la homogeneidad de varianzas: la más utilizada es la prueba de Levene.

En el caso de que no se cumpla la asunción de Normalidad se suele intentar alguna transformación de los datos que "normalice" los datos, siendo la transformación logaritmo neperiano la más usual. Ocurre en la práctica que la transformación que "normaliza" los datos también consigue igualdad de varianzas. En el caso de que no se diera la hipótesis de igualdad de varianzas ni siquiera después de transformar los datos, hay que utilizar una modificación de la prueba t de Student debida a Satterthwaite que es válida para el caso de no homogeneidad de varianzas.

Ejemplo

Se supone que se quiere comparar dos tratamientos con relación a una variable cuantitativa. Los datos experimentales son:

Trat A: 25, 24, 25, 26

Trat B: 23, 18, 22, 28, 17, 25, 19, 16

Si se aplica la t de Student directamente se obtiene una p=0,096>0,05 con lo que se concluye que no se puede demostrar diferencias entre los dos tratamientos. Sin embargo la prueba de Levene pone de manifiesto que p=0,014<0,05 con lo que se concluye que en estos datos no se verifica la igualdad de varianzas, con lo que la conclusión anterior queda en suspenso. Tras aplicar Satterthwaite, que es válido en este caso de heterocedasticidad, se obtiene que p=0,032<0,05 con lo que la conclusión correcta es que sí hay diferencia entre los dos tratamientos.

La prueba t de Student es muy utilizada en la práctica, sin embargo a menudo su aplicación se hace sin excesivo cuidado, no comprobando las asunciones que requiere. En este artículo se ha puesto de manifiesto que la falta de normalidad o la falta de homogeneidad en las varianzas invalidan la prueba t de Student

16.- Aplicaciones de los contrastes de Hipótesis

Como se afirmó anteriormente: El contraste de hipótesis (también denominado test de hipótesis o prueba de significación) es una técnica de inferencia estadística para juzgar si una propiedad que se supone cumple una población estadística es compatible con lo observado en una muestra de dicha población.

Por ejemplo, si sospechamos que una moneda ha sido trucada para que se produzcan más caras que cruces al lanzarla al aire, podríamos realizar 30 lanzamientos, tomando nota del número de caras obtenidas. Si obtenemos un valor demasiado alto, por ejemplo 25 o más, consideraríamos que el resultado es poco compatible con la hipótesis de que la moneda no está trucada, y concluiríamos que las observaciones contradicen dicha hipótesis.

La aplicación de cálculos probabilísticos permiten determinar a partir de qué valor debemos rechazar la hipótesis garantizando que la probabilidad de cometer un error es un valor conocido a priori.

Las hipótesis pueden clasificarse en dos grupos, según:

Especifiquen un valor concreto o un intervalo para los parámetros del modelo.
Determinen el tipo de distribución de probabilidad que ha generado los datos.

Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del segundo que la distribución de probabilidad es la distribución normal.

Aunque la metodología para realizar el contraste de hipótesis es análoga en ambos casos, distinguir ambos tipos de hipótesis es importante puesto que muchos problemas de contraste de hipótesis respecto a un parámetro son, en realidad, problemas de estimación, que tienen una respuesta complementaria dando un intervalo de confianza (o conjunto de intervalos de confianza) para dicho parámetro. Sin embargo, las hipótesis respecto a la forma de la distribución se suelen utilizar para validar un modelo estadístico para un fenómeno aleatorio que se está estudiando.

Los contrastes de hipótesis, como la inferencia estadística en general, son herramientas de amplio uso en la ciencia en general. En particular, la moderna Filosofía de la ciencia desarrolla el concepto de falsabilidad de las teorías científicas basándose en los conceptos de la inferencia estadística en general y de los contrastes de hipótesis. En este contexto, cuando se desea optar entre dos posibles teorías científicas para un mismo fenómeno (dos hipótesis) se debe realizar un contraste estadístico a partir de los datos disponibles sobre el fenómeno que permitan optar por una u otra.

Las técnicas de contraste de hipótesis son también de amplia aplicación en muchos otros casos, como ensayos clínicos de nuevos medicamentos, control de calidad, encuestas, etc.

INFOGRAFIA:

1. http://html.rincondelvago.com/estadistica_6.html

2. http://dieumsnh.qfb.umich.mx/estadistica/glosario.htm

3. http://sitios.ingenieria-usac.edu.gt/estadistica/estadistica2/estadisticadescriptiva.html

4. http://www.estudiagratis.com/showCourse.php?a=10147&b=1&h=E15EF20B65B64441769D26A3FBCFFFF3

5. http://docentes.uacj.mx/lvalenzu/Estadistica/PROBLEMAS%20PROPUESTOS%20DE%20ESTIMACION%20PARA%20LA%20MEDIA%20CON%20VARIANZA%20POBLACIONAL%20CONOCIDA.doc

6. http://www.so.ucr.ac.cr/Enlaces/Estadistica/problemas/

7. http://e-stadistica.bio.ucm.es/mod_intervalos/intervalos5.html

8. http://www.cesma.usb.ve/~giselle/FC1623/guiaestiiCapituloII.prn.pdf

9. http://www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.7/p3.html

10. http://www.cig.ensmp.fr/~hubert/glu/ES/GF1200ES.HTM

11. http://iaci.unq.edu.ar/Materias/ins_med/archivos/Instymed_t1.pdf

12. http://html.rincondelvago.com/contraste-de-hipotesis_1.html