Para volver al menú principal pulse sobre la palabra

Muestras aleatorias y distribuciones de muestreo.

Definición 1.

Si las variables aleatorias X₁, X₂, …, X_n tienen la misma función de probabilidad que la distribución de la población y su distribución de probabilidad conjunta es igual al producto de las marginales, entonces X₁, X₂, …, X_n forma un conjunto de n variables aleatorias independientes e idénticamente distribuidas (IID) que constituye una muestra aleatoria de la población.

La función (densidad) conjunta de probabilidad de X₁, X₂, …, X_n es la función de verosimilitud de la muestra dada por:

en donde

denota los datos muestreados.

Cuando las realizaciones de

se conocen, la función

depende sólo del parámetro desconocido q.

Definición 2

Un parámetro es una característica numérica de la distribución de la población de manera que cuando se conoce esta, la distribución, queda descrita, sino total, al menos parcialmente.

Los parámetros o funciones de los parámetros se estiman a partir de la información contenida en una muestra.

Definición 3.

Un estadístico es cualquier función de las variables aleatorias que se observaron en la muestra de manera que esta función no contiene cantidades desconocidas.

Si se utiliza un estadístico T para estimar un parámetro desconocido q, entonces T recibe el nombre de estimador de q y el valor específico que tome T, por ejemplo t, se denomina estimación de q.

Definición 4

La distribución de muestreo de un estadístico T es la distribución de probabilidad de T que puede obtenerse como resultado de un número infinito de muestras aleatorias independientes, cada una de tamaño n, provenientes de la población de interés.

Teorema 1

Sea X₁, X₂, …, X_n un conjunto de n variables aleatorias independientes cada una con función generadora de momentos

Si Y=a₁X₁+ a₂X₂+ … + a_nX_n en donde a₁, a₂, …, a_n son constantes, entonces:

Teorema 2

Sea X₁, X₂, …, X_n un conjunto de variables aleatorias independientes y normalmente distribuidas con medias E(X_i) y varianzas Var(Xi)=s_i² para i = 1, 2 , …, n. Si Y=a₁X₁+ a₂X₂+ … + a_nX_n en donde a₁, a₂, …, a_n son constantes, entonces Y es una variable aleatoria normal con media

E(Y) =a₁m₁+ a₂m₂+ … + a_nm_n

y con varianza

var(Y)= a₁²s²₁+ a₂²s²₂+ … + a_n²s²_n

(La hipótesis de normalidad puede quitarse)

La distribución de muestreo de la media muestral .

Sea X₁, X₂, …, X_n una muestra aleatoria que consiste en un conjunto de variables aleatorias independientes e idénticamente distribuidas ( v.a IID) tales que E(X_i)=m y Var(X_i)=s² para todo i.

Entonces el estadístico

se define como la media de las n v.a IID.

Aplicando el teorema 2 se tiene :

de donde

Teorema 3

Sea X₁, X₂, …, X_n una muestra aleatoria que consiste en un conjunto de variables aleatorias independientes y normalmente distribuidas tales que E(X_i)=m y Var(X_i)=s² para i = 1, 2, …, n. Entonces la distribución de la media muestral es normal con media m y varianza s²/n.

Un problema de máximo interés consiste en saber lo que ocurre si no se especifica la distribución de probabilidad de la población a partir de la cual se extrae la muestra.

Teorema central del límite.

Sea X₁, X₂, …, X_n una muestra aleatoria que consiste en un conjunto de variables aleatorias independientes e idénticamente distribuidas ( v.a IID) en una distribución de probabilidad no especificada y tales que E(X_i)=m y Var(X_i)=s² para todo i. Entonces el promedio muestral

tiene una distribución de media m y varianza s²/n que tiende a una normal conforme n tiende a ¥

Debe de notarse el hecho de que si el modelo de probabilidad de la población es semejante a una distribución normal, la aproximación normal será buena aun para muestras pequeñas.

En general, para n>30, la aproximación normal será relativamente buena y puede emplearse

para hacer inferencias sobre m cuando se conoce el valor de la varianza poblacional s².

Distribución en el muestreo de S²

Supongamos que la población se encuentra normalmente distribuida con m conocida y s²desconocida. Se define S² como

donde para cada i

Teorema 5

Sea X₁, X₂, …, X_n una muestra aleatoria de una distribución normal de media m y varianza s². La distribución de la variable aleatoria

es del tipo de la Chi-cuadrado con n grados de libertad.

Desde un punto de vista práctico, la varianza muestral tal y como se encuentra definida anteriormente tiene poco uso, pues rara vez se conoce la media poblacional m. En su lugar se emplea la varianza muestral, definida por:

Más adelante se verá porqué se emplea el divisor n-1 en lugar de n.

El reemplazo de la media desconocida m por la media muestral da origen a la presencia de otro estadístico en la definición de S². Como consecuencia se tiene que la distribución de muestreo

Teorema 6

Sea X₁ y X₂ son variables aleatorias independientes y cada una tiene una distribución Chi-cuadrado con n₁y n₂ grados de libertad, entonces Y = X₁ + X₂tiene también una

Chi-cuadrado con n_{1 +} n₂ grados de libertad.

Teorema 7

donde

Demostración

de donde

Dividiendo los dos miembros por s²

Por el teorema 5

sigue una Chi-cuadrado con n grados de libertad y

de manera similar sigue una chi-cuadrado con 1 grado de libertad, dado que

En vitud del teorema 6 se sigue que

La distribución t de Student

Se sabe, cuando una muestra proviene de una distribución normal con desviación estándar conocida s, que la distribución de

Generalmente el valor de s no se conoce y lo que se hace es reemplazar s por un estimador s, que es el valor de la desviación estándar muestral S.

Desafortunadamente

ya no es N(0; 1) aún cuando la muestra provenga de una distribución normal.

Sin embargo, es posible determinar la distribución muestral exacta de

cuando la población es normal N(m, s) con m y s desconocidos.

Teorema 8

Sea Z normal N(0, 1) y X una Chi-cuadrado con n grados de libertad. Si Z y X son independientes, entonces la variable aleatoria

sigue una t-Student con n grados de libertad.

La similitud de la t-Student y la N(0,1) es alta para valores grandes de n, sobre todo para n ³30.

Teorema 9

Cuando se muestrea una población normal N(m,s) , el estadístico

sigue una t-Student con n-1 grados de libertad.

Distribución de la diferencia de dos medias muestrales

Supongamos que X sigue una N(m_X, s) e Y una N(m_Y, s) donde X e Y son variables aleatorias independientes con varianzas iguales conocidas.

Sabemos que

Entonces

sigue una distribución normal de media m_X-m_Y y varianza 1². s²/n_X + (-1)².s²/n_Y

Por tanto si se conoce el valor de s², el estadístico

se distribuye según una normal de N(0; 1)

Se ha supuesto que s es conocido. Sin embargo, es poco probable que esto suceda. Por tanto para el caso en el que el muestreo se lleve a cabo sobre dos poblaciones normales independientes con varianzas iguales pero desconocidas, para cada una de las muestras obtenidas pueden definirse las varianzas muestrales definidas S²_X y S²_Y y dado que

y teniendo en cuente el teorema 6

sigue también una chi-cuadrado con n_X+n_Y-2 grados de libertad

Luego

sigue una t-Student con n_X+ n_Y- 2 grados de libertad.

Por tanto

simplificando

donde

es un estimador combinado de la varianza.

Si suponemos que las varianzas poblacionales son distintas pero conocidas, entonces se tiene:

De donde

y por tanto

En el supuesto de que s²_X y s²_Y sean desconocidas y haya que estimarlas a partir de S²_X y S²_Y el problema se complica, en tal caso se tiene:

sigue una distribución t-Student con f grados de libertad, en donde f es la aproximación de Welch:

expresado en número entero.

La distribución F

La inferencias con respecto a la varianza s² cuando se muestrea una población normal se formula con base a

En esta sección se formularán inferencias con respecto a la varianza de dos distribuciones normales independientes con base en las muestras aleatorias de cada una.

Teorema 10

Sea X una variable aleatoria que se distribuye según una Chi-cuadrado con n₁ grados de libertad e Y otra variable aleatoria independiente de X, que se distribuye según una Chi-cuadrado con n₂ grados de libertad. Entonces la variable aleatoria

tiene una función de densidad de probabilidad dada por

Es fácil ver que si

sigue una distribución F con n₁ ,n₂ grados de libertad, entonces F^´=1/F sigue una F con n₂ ,n₁ grados de libertad

Es por esto que en las tablas sólo aparecen los valores cuantiles f₁_-a;n1;n2 para a<0.5. Si se desean los valores cuantiles para a>0.5

o bien

siendo

Volviendo al problema de desarrollar estadísticos para formular inferencias con respecto a las varianzas de dos distribuciones normales independientes.

Sean X₁, X₂, …., X_nx variables aleatorias independientes N(m_X, s_X)

Sean Y₁, Y₂, …, Y_ny variables aleatorias independientes N( m_Y, s_Y)

Si X e Y son independientes

entonces por el teorema 10

Hosted by www.Geocities.ws

Para volver al menú principal pulse sobre la palabra