UNIVERSIDAD YACAMBU

ESTADÍSTICA DESCRIPTIVA

Profesor: Sandy Quintero

Alumno: Aldo Méndez

 ANÁLISIS BIVARIABLE LINEAL

 

 

Asociación entre variables.

Modelo de regresión bivariable lineal.

Estimación de parámetros de regresión.

Variancia de la regresión de la muestra.

Inferencias acerca de los coeficientes de regresión de la población.

Predicción y pronosticación.

Análisis  de correlación.

Coeficiente de correlación de la muestra

.

Coeficiente de determinación y análisis de variancia en regresión lineal.

Prueba  F sobre β.

Coeficiente de correlación por calificación.

Conclusión.

Infografia.

 

 

Asociación entre variables

Una población Bivariable es aquella que contiene dos mediciones de cada elemento.

Ejemplo: Se  puede observar la estatura y el peso de cada individuo de una población de hombres adultos.

Todas las estaturas medidas serian los valores de una variable, por ejemplo X; todos los pesos, los valores de otra variable, por ejemplo Y. Cuando cada elemento de una población puede dar tres o mas mediciones, cada una de ellas de una característica especifica, tenemos lo que se llama datos multivariables. Por ejemplo, longitudes, diámetros y resistencias o la rotura de barras de acero, producidas por cierto proceso nos dan tres variables con las cuales trabajar.

El principal problema al analizar datos bivariables o multivariables es descubrir y medir la asociación o covariación entre las variables, es decir, determinar como varían juntas las variables. Así, podemos observar que los hombres mas altos suelen ser mas pesados, y los mas bajos son generalmente de menos peso. Esto, por supuesto, solo es cierto en promedio, porque hay excepciones, tales como hombres bajos y pesados, y hombres altos y ligeros. Pero si puede establecerse esta relación media en cierta forma matemáticamente funcional, podremos estimar con mucha precisión, en promedio, el peso de un hombre sobre la base de su estatura. A tal procedimiento se le ha llamado estimación por asociación.

La estimación por, asociación es muy compleja y muy útil. Este procedimiento es realmente de predicción, y la predicción es la función central de las ciencias. La tarea principal de todo estudio científico es descubrir las relaciones generales entre variables observadas, y enunciar la naturaleza de tales relaciones con precisión en términos matemáticos, para que el valor de una variable pueda ser predicho sobre la base del de otra.

Cuando la relación es obscura e imprecisa, los métodos matemáticos ordinarios no son muy útiles, pero si los métodos estadísticos. La contribución especial de la estadística en este contexto es la de manejar relaciones vagas, borrosas o imprecisas entre variables. Podemos medir si a vaguedad es tan grande que no hay relación útil alguna. Si solo hay un grado moderado de vaguedad, podemos calcular cual sería la mejor predicción y calificar también la predicción para tomar en cuenta la imprecisión de la relación.

Hay dos aspectos relacionados, pero distintos, del estudio de la asociación entre variables. El primero, análisis de regresión, trata de establecer la "naturaleza de la relación" entre variables, es decir, estudiar la relación funcional entre las variables y, por tanto, proporcionar un mecanismo de predicción, o pronóstico. El segundo, análisis de correlación, tiene como objetivo determinar el "grado de la relación" entre variables.

El análisis de asociación también puede distinguirse como simple y múltiple: el primero se ocupa solo de dos variables; el segundo, de tres o mas variables. Además, existe también la diferenciación entre análisis de asociación lineal y no lineal, según el tipo de relación que tienen las variables.

Modelo de regresión Bivariable lineal

En el modelo de regresión bivariable  lineal, una variable Y dependiente, o “explicada, se relaciona con una variable X independiente, o “explicativa”, por la siguiente expresión:

 

yi =  α + βxi  + ui,

 

donde  α   y  β son los parámetros de regresión desconocidos llamados coeficientes de regresión de población, y ui es el “trastorno” al azar o residual.

Se designan  las variables como dependientes o independientes, esto se refiere  al significado matemático o funcional de dependencia; no implica dependencia estadística ni causa y efecto. Pero, finalmente, las tres interpretaciones de dependencia serán abarcadas en el análisis de regresión.

La relación  de dependencia lineal definida por yi = α  + βxi  + ui,  consta de dos partes: la parte sistemática identificada por α  +  βxi    y la parte estocástica identificada por  ui.  Esto recuerda que es un modelo probabilista, en vez de determinista.

La naturaleza estocástica del modelo de regresión implica que el valor de Y nunca puede ser predicho exactamente como un caso determinista. La incertidumbre relativa  a Y es atribuible a la presencia de ui,  quesiendo una variable aleatoria, imparte aleatoriedad a Y.

 Ejemplo:

No se puede esperar que  robles de la misma edad (xi) tengan la misma altura (yi), debido a la influencia de fuerzas “causales”. Además de esta interpretación del término  casual como una aleatoriedad inherente a la conducta, tienen mérito otros dos puntos de vista. A veces, surge ui  por la  exclusión de otras variables explicativas importantes y relevantes en el modelo. Esto conduce  al análisis de regresión múltiple. En ocasiones, el error  de medición  en Y es la causa de ui. En una aplicación particular del análisis de regresión, cualquiera de estas razones podría  ser la interpretación razonable de  ui, o cualquier par de estas razones, o las tres razones juntas.

Como una digresión, podría preguntarse cómo se maneja el error de medición en X, ahora que el error de medición en Y ya se ha mencionado. La respuesta es que  yi =  α + βxi  + ui,   no permite error de medición en X. Pero hay otros modelos que lo permiten. A pesar de esta limitación en yi =  α + βxi  + ui,  sigue siendo un modelo muy útil.

Cualquiera que sea la forma en que se interprete ui, está claro que la completa especificación del modelo de regresión incluye no solo la forma de la ecuación de regresión, sino también una expresión de cómo son determinados los valores de la variable independiente y una especificación de la distribución de ui, por probabilidades. La especificación completa de lo que se llama modelo clásico de regresión lineal simple la hace el siguiente conjunto de supuestos:

1.-  La variable independiente X es fija. El termino "fijo" está en contraste directo con la noción de “estocástico". La expresión "valores fijos de X" significa que X tiene valores que son fijados (es decir, escogidos o predeterminados) por el investigador. El supuesto independiente-variable-fijo implica que para cada valor fijo de X,  xi,   hay una distribución de valores Y por probabilidades, llamada subpoblación de Y.

 

 

2.-  El termino "error"  ui, asociado con cada valor de X, xi  es una variable aleatoria cuya distribución de probabilidades se supone que es normal con E (ui) = 0. Este supuesto implica que, en promedio, la parte sistemática de yi en la gráfica es α + βxi. En realidad, la expectativa condicional de yi dada xi  es simplemente

 

 

 

E(yi │xi) = µyx  = E(α + βxi + ui)

              = α + e (xi) + 0

              = α + βxi.

 

 

                                  

El resultado nuevamente obtenido se llama ecuación de regresión de población de Y sobre X, que nos da el valor medio de Y dado un valor fijo de X, y de ahí la notación µyx. En esta expresión, α  es el valor media de Y cuando X = 0; β mide el cambio en el valor media de Y por cambio unitario en el valor de X. En

E(yi │xi)        = µyx  = E(α + βxi +    ui)

= α + e (xi) + 0

= α + βxi.

 

 

Gráficamente, α es la ordenada en el origen Y y β es la pendiente de la línea de regresión.

  

3.  La variancia condicional de Y dada X se llama variancia de la regresión, representada por σ2yx, Se supone que esta medida es constante, cualquiera que sea el valor de X, y es igual a la variancia de ui, es decir, σu2. Esto se puede comprobar. Ver gráfico (arriba), y para cualquier valor de X, tenemos

 V         = e[yi – E(yi)]2

= E[α + βxi +  ui – E (αβxi + ui)]2

E(α + βxi +  ui –    α - βxi)2

= E(ui2)

= σ2ui = σ2  

 

El supuesto de constancia de la variancia condicional es:

 E(yi │xi)      = µyx  = E(α + βxi +

                      = α + e (xi) + 0

                      = α + βxi.

donde cada xi corresponde a una subpoblación de yi y donde V(yi │xi) = σ2 para cualquiera i. La variancia constante se representa por el ancho constante entre las líneas de trazos. Esta propiedad se llama a veces homoscedasticidad, cuyo significado se comprende mejor por la noción de heteroscedasticidad cuando V(yi │xi)  varía según la escala de valores de X. Heteroscedasticidad es observada a menudo en datos en los que, por ejemplo, las variaciones en las alturas de árboles podrían disminuir con aumentos en las edades de los árboles  E(yi │xi)    = µyx  = E(α + βxi + ui)

                = α + e (xi) + 0

                = α + βxi.

 o donde las variaciones en el gasto para consumo son mayores al aumentar el nivel del ingreso (figura c)

 

 

4. ui es estadísticamente independiente de xi , como podría esperarse, porque cada valor de ui  es una muestra al azar simple de tamaño uno y de una población normal con media cero y desviación estándar σ. El subíndice de ui puede eliminarse si se desea.

Con los supuestos anteriores, pueden derivarse estimadores para los parámetros de regresión desconocidos y pueden hacerse inferencias con estos estimadores. Pero debe subrayarse aquí que uno o más de estos supuestos básicos son a menudo violados en la práctica. En particular, el incumplimiento del primer supuesto de que X sea no estocástica no es crucial; pueden obtenerse aun útiles resultados cuando X es una variable aleatoria. Si ui no es independiente de si misma, se dice que los términos de error están autocorrelacionados. Si el supuesto de variancia constante es violado, se dice que los términos de error son heteroscedásticos. Si E (ui) ≠ 0 para algunos valores de X, tenemos realmente regresión no lineal, porque entonces la línea de regresión de la población no es una línea recta, sino una línea curva o una línea recta cortada o algo diferente de una línea recta ordinaria. Si ui no está normalmente distribuida, los estimadores derivados del supuesto de normalidad no tendrán necesariamente las propiedades que tienen cuando ui, esta normalmente distribuida, y puede ser muy difícil descubrir qué propiedades tienen los estimadores cuando ui no es normal. Las faltas leves en satisfacer todos estos supuestos no son particularmente importantes, pero las faltas fuertes si lo son. Es buena práctica comprobar los datos de la muestra por lo menos rápidamente para ver si cada uno de los supuestos es razonable para dicha muestra. Una porción importante de la teoría econométrica se relaciona con problemas de estimación de coeficientes de regresión cuando uno o mas de estos supuestos es violado.

 

Estimación de parámetros de regresión en la muestra

 

Estimación de los parámetros de la recta de regresión

Estimación de los parámetros de la recta de regresión. El primer problema a abordar es obtener los estimadores de los parámetros de la recta de regresión,  partiendo de una muestra de tamaño n, es decir, n pares (x1, Y1) , (x2, Y2), ..., (xn, Yn); que representan nuestra intención de extraer para cada xi un individuo de la población o variable Yi

Una vez realizada la muestra, se dispondrá de n pares de valores o puntos del plano (x1, y1) , (x2, y2), ..., (xn, yn). El método de estimación aplicable en regresión, denominado de los mínimos cuadrados, permite esencialmente determinar la recta que "mejor" se ajuste o mejor se adapte a la nube de n puntos. Las estimaciones  de los parámetros de la recta de regresión obtenidas con este procedimiento son:

 

Por tanto la recta de regresión estimada será:

 

  

ESTIMACIÓN DE PARÁMETROS POR MÍNIMOS CUADRADOS 

La estimación de parámetros para el modelo de regresión lineal simple; esto es, un modelo con un solo regresor X que tiene una relación con una respuesta  Y  y que es una línea recta. El modelo lineal es dado por:

(1) Yi β0 + β1X + εi

Donde  

Xi

=

la   i - ésima observación de la variable aleatoria dependiente Y.

Xi

=

es la i - ésima   observación de la variable fija dependiente  X

 β0

=

es el intercepto y es una constante (parámetro)

 β1

=

es llamado la pendiente y es una constante (parámetro)

εi

=

es la componente aleatoria error

 

Para εi   se hacen los siguientes supuestos:  

(1) Los errores tienen media cero

(2) Los errores tienen varianza igual pero desconocida  σ2 .

(3) Los errores no son correlacionados.

 

La no correlación de los errores significa que el valor de un error no depende del valor de cualquier otro error.

Es de tener en cuenta que:

1. La variable regresor X es es controlada por el investigador y medida con un error despreciable.

2. La variable respuesta   Y  es aleatoria. Esto es, existe una distribución de probabilidad para   Y  en cada posible valor de X. La media de la distribución es

 

                                                                    E(Y │X) = β0 + β1X

 y la varianza es

                                                                    V(Y │ X) = V(β0 + β1X + ε) = σ2

 

Cómo obtener los datos

Al colectar los datos se  identifica la variable dependiente y la variable independiente. Se registran los   n pares de datos   (X1, Y1), (X2, Y2),..., (Xn, Yn),   ya sea por medio de:  

ü  Experimentos controlados diseñado específicamente para obtener los datos o

ü  Registros históricos existentes.

 

Cómo determinar si se debe aplicar un modelo de regresión simple

Una vez se han colectado los datos se debe ubicar los puntos en un plano cartesiano donde en el eje   X  se este la variable independiente y en el eje  Y   la variable dependiente. Este gráfico es llamado el diagrama de dispersión. Si en el diagrama de dispersión los datos parecen ajustarse a una línea recta se debe proponer un modelo de regresión lineal simple como el dado en la ecuación.

Cómo obtener la ecuación de regresión o modelo ajustado Cómo obtener la ecuación de regresión o modelo ajustado

Se le llama modelo de regresión ajustado o ecuación de regresión que relaciona a la variable Y  con la variable   X   obtenida a partir de los datos de la muestra. Para obtener la ecuación de regresión o modelo ajustado se debe obtener los estimadores de los parámetros del modelo:  β0 y β1 . Estos se puede obtener mediante algunos métodos de estimación como

ü  Mínimos cuadrados

ü  Máxima verosimilitud

 

El método de mínimos cuadrados, encuentra los estimadores de los parámetros  β0 y β1  tal que la suma de cuadrados de los residuales (diferencias entre el valor observado de Y  y el valor estimado    yi  ) sea mínima. Para la aplicación del método de mínimos cuadrados se debe:

 

1.      Escribir la suma de cuadrados del error

                                                                    n                n

S = S( β0 , β1)  =  SCerror =  SCerror  =  Σ   εi=   Σ    (Yi - 0 - β1Xi)2

                                                      i-1              i-1

 

 

2. Obtener la derivada de la suma de cuadrados del error con respecto a cada parámetro del modelo; es decir:

а     аS  

аβ  Y   аβ1

 

 

                   n

аS  = -2>    Σ      (Y1- β1Xi)

аβ0            i-1     

 

 

 

 

                   n

аS  = -2    Σ    Xi   (Y1- β0Xi)

аβ1            i-1     

 

 

2.      Igualar las derivadas a cero y simplificar (se debe sustituir  β0 y β1   por sus respectivos estimadores b0 y  b1)

      

       n

-2   Σ   (Yi - b0 - b1Xi)  = 0

      i-1

 

       n

-2   Σ    Xi (Yi - b0 - b1 Xi)  = 0

      i-1

 

 

simplificando

 

n                                   n

Σ    Yi  -  nb0- b1&nbssp;   Σ     Xi   = 0  (1)

i-1                               i-1

 

 

n                              n

Σ   Xi  Yi  -  b0 &nbbsp;  Σ     Xi2   = 0  (2)

i-1                           i-1

 

 

La anteriores ecuaciones son llamadas Ecuaciones normales.

 3.      Solucionar el sistema de ecuaciones o ecuaciones normales.

Despejando el valor de b0    en la ecuación normal  (1) y reemplazando en la (2) se obtiene la solución de las ecuaciones normales para b1, llamado la pendiente de la recta ajustada.

n                                        n

Σ     Yi  -  nβ>0 -   β1   Σ     Xi   = 0

i-1                                    i-1

 

 

n                                n                       n

Σ     Yi Xi  -  β0   Σ     Xi  -   β1   Σ    Xi2  = 0

i-1                            i-1                      i-1

 

 

de las ecuaciones anteriores se tiene

 

       n

-2   Σ     (Yi - β0  - β1Xi)  = 0

      i-1

 

      n

-2   Σ   Xi  (Yi - β0  - β1Xi)  = 0

      i-1

 

Las cuales son llamadas ecuaciones normales.

 

Variancia de la regresión en la muestra.

 

MÉTODOS DE MUESTREO

Es el proceso por el cual se seleccionan los individuos que formarán una muestra.

Para que se puedan obtener conclusiones fiables para la población a partir de la muestra, es importante tanto su tamaño como el modo en que han sido seleccionados los individuos que la componen.

El tamaño de la muestra depende de la precisión que se quiera conseguir en la estimación que se realice a partir de ella. Para su determinación se requieren técnicas estadísticas superiores, pero resulta sorprendente cómo, con muestras notablemente pequeñas, se pueden conseguir resultados suficientemente precisos. Por ejemplo, con muestras de unos pocos miles de personas se pueden estimar con muchísima precisión los resultados de unas votaciones en las que participarán decenas de millones de votantes.

Para seleccionar los individuos de la muestra es fundamental proceder aleatoriamente, es decir, decidir al azar qué individuos de entre toda la población forman parte de la muestra.

Si se procede como si de un sorteo se tratara, eligiendo directamente de la población sin ningún otro condicionante, el muestreo se llama aleatorio simple o irrestrictamente aleatorio.

Cuando la población se puede subdividir en clases (estratos) con características especiales, se puede muestrear de modo que el número de individuos de cada estrato en la muestra mantenga la proporción que existía en la población. Una vez fijado el número que corresponde a cada estrato, los individuos se designan aleatoriamente. Este tipo de muestreo se denomina aleatorio estratificado con asignación proporcional.

Las inferencias realizadas mediante muestras seleccionadas aleatoriamente están sujetas a errores, llamados errores de muestreo, que están controlados. Si la muestra está mal elegida —no es significativa— se producen errores sistemáticos no controlados.

Muestreo

El diseño de muestra o diseña de encuesta especifica el método de obtención de la muestra.

El diseño no especifica la forma de recolectar o medir los datos reales. Especifica únicamente el método de recolección de los objetos que contienen la información requerida. Estos objetos se llaman elementos.

Un elemento es un objeto del cual se toma una medición.

Los elementos pueden ocurrir individualmente o en grupos en la población. Un grupo de elementos, como una familia o una caja de cerillos se llama unidad de muestreo.

Las unidades de muestreo son colecciones disjuntas de elementos de la población. En algunos casos una unidad muestral esta constituida por un solo elemento.

Para seleccionar una muestra aleatoria de unidades de elementos muéstrales, es necesaria una lista de todas las unidades muéstrales contenidas en la población. Esta lista se le denomina marco muestral.

Un marco muestral es una lista de unidades muéstrales.

Sago y Error en el Muestreo

Sea el estimador muestral del parámetro poblacional. El error de estimación es la diferencia absoluta ø- ø.

Como Seleccionar Una Muesra Aleatoria

Al seleccionar una muestra aleatoria de n mediciones de una población infinita de N mediciones, si el muestreo se lleva a cabo de forma que todas las muestras posibles de tamaño n tenga la misma probabilidad de ser seleccionadas, el muestreo se llama aleatorio y el resultado es una muestra aleatoria simple.

Estimación basada en una Muestra Aleatoria Simple

Al usar muestreo aleatorio simple para estimar la medida poblacional


, se obtiene el siguiente estimador:

 

Estimación de la medida poblacional para un muestreo aleatorio simple

Estimador

 

Varianza estimada del estimador:

con

Cotas para el error estimación:

 

 

Estimación del Total Poblacional para una muestra aleatoria simple

Estimador:

 

Varianza Estimada del Estimador:

 

Cota para el Error de Estimación:

 

Estimación de la proporción poblacional para una muestra aleatoria simple

Estimador

 

Varianza estimado del estimador:

con

Cotas para el error de estimación:

 

En este caso y es él numero total de los elementos de la muestra que tienen determinada característica.

Muestreo Aleatorio Estratosférico

 

Una muetra aleatoria estratificada es una muetra aleatoria que se obtiene separando los elementos de la población en grupos disjuntos, llamados estratos, y seleccionando una muetra aleatoria simple dentro de cada estrato.

Afijacion de la Muetra para los Estratos

i=1,2,....,L

donde Ni es él numero de elementos del estrato i y

 

es el tamaño de la población.

Estimación de la Media y la Varianza de Cada Estrato

 

 

i=1,2,....,L

donde yij es la j-ésima observación del estrato i.

La varianza es un estimador de la correspondiente varianza del estrato .

El estimador de la media poblacional


, basado en un muestreo aleatorio estratificado.

 

Estimación de la Media Poblacional para una Muestra Aleatoria Estratificada

Estimador

 

Varianza estimada del estimador:

 

Cotas para el error de estimación:

 

Estimador del total Poblacional para una Muestra Aleatoria Estratificada

Estimador

 

Varianza estimado del estimador:

 

Cotas para error de estimación:

 

Estimación de la Proporción Poblacional para una Muestra Aleatoria Estratificada

Estimador

 

Varianza estimada del estimador:

 

Cotas para error de estimación:

 

Muestreo por Conglomerados

 

Una muestra por conglomerados se obtiene seleccionando aleatoriamente un conjunto de m colecciones de elementos muéstrales, llamados conglomerados, de la población y posteriormente llevando a cabo un censo completo en cada uno de los conglomerados.

 

Estimación de la Media Poblacional en un Muestreo por Conglomerados

Estimador:

 

Varianza estimada del estimador:

 

Cotas para el error de estimación:

 

donde

M es él numero de conglomerados en la población y m es el numero de conglomerados en la muestra.

Estimación del Total Poblacional en un Muestreo por Conglomerados

Estimador:

 

Varianza estimada del estimador:

 

Cotas para el error de estimación:

 

Estimación de la Proporción Poblacional en un muestreo por Conglomerados

Estimador:

 

Varianza estimada del estimador:

 

Cotas para el error de estimación:

 

Cuando los tamaños de los conglomerados son iguales, es un buen estimador de la varianza real para cualquier numero m de conglomerados muéstrales. Cuando los tamaños de los conglomerados no son iguales, es un buen estimador únicamente cuando m es grande, por ejemplo .

Determinación del Tamaño de Muestra

 

Tamaño de muestra para estimar


 en el muestreo aleatorio simple

 

con

donde es la varianza poblacional, N es él numero de elementos de la población, y B en la cota para el error de estimación.

Si N es grande, la formula del tamaño de muestra se reduce.

Tamaño de muetra para estimar


 en un muestreo aleatorio simple cuando N es muy grande

 

 

Cuando el objetivo es estimar el total poblacional


, con una cota B para el error de estimación, se debe sustituir en la formula del tamaño.

 

Tamaño de muestra para la estimación de n en un muestreo aleatorio estratificado

 

y

donde y son, respectivamente la varianza y el tamaño del i-ésimo estrato.

El tamaño de muestra necesario para estimar el total poblacional


, con una cota  para el error de estimación, se obtiene sustituyendo en la ecuación.

 

Tamaño de muestra para la estimación de p para una muetra aleatoria estratificada cuando N es muy grande

 

 

 

Muestreo por Conglomerados

 

En muestreo aleatorio estratificado primero se particiona la población en estratos, y entonces se selecciona una muestra aleatoria de cada estrato. El procedimiento en el muestreo por conglomerados es al revés. Después de dividir la población en conglomerados se selecciona al azar algunos de ellos. Dentro de cada conglomerado escogido, se registran todos los elementos muéstrales. En el muestreo aleatorio estratificado las unidades muéstrales son los elementos individuales de la población, mientras que en el muestreo por conglomerados las unidades muéstrales son conglomerados de los elementos.

Otros Diseños y Procedimientos de Muestreo

 

Muestreo sistemático

 

Para obtener una muetra sistemática, se elige aleatoriamente un elemento dentro de los primeros k elementos del marco muestral y posteriormente se selecciona en forma sucesiva el k-ésimo elemento que sigue al ultimo que se obtuvo.

Estimadores de Razón

El estimador de razón es un sistema basado en la relación existente entre dos variables y y x que se miden en el mismo conjunto de elementos. Como la regresión lineal el estimador de razón usa información sobre una variable x para estimar y .

Muestreo por Conglomerados bi-etápico

 

Este se lleva acabo seleccionando una muetra aleatoria simple de conglomerados y posteriormente seleccionando una muetra aleatoria de elementos de cada uno de los conglomerados. Por lo tanto, cuando el tamaño de los conglomerados es muy grande o cuando los elementos de un conglomerados son muy similares, el muestreo de dos etapas constituye una alternativa eficiente para el muestreo por conglomerados.

Muestreo de respuesta aleatoria

 

En el muestreo de poblaciones humanas, los resultados de la investigación pueden distorsionarse a que algunos informantes se niegan a contestar todas las preguntas, o proporcionan información incorrecta.

Para llevar a cabo encuestas relacionadas con tópicos delicados, se ha creado este sistema de muestreo, y requiere que la pregunta sobre el tema delicado se acompañe de una pregunta inocua. El informante responde únicamente una de las dos preguntas seleccionadas al azar.

MUESTRAS 

En la base de todo estudio estadístico, hay una población, formada por individuos sobre los cuales se observan caracteres. Para aclarar la idea es más fácil pensar en términos de una población humana. Los individuos son personas y los caracteres observados pueden ser morfológicos (estatura, peso, color de los ojos), fisiológicos (grupo sanguíneo, conteo globular, índice de colesterol) o psicológicos (reacciones en tests, respuestas a una encuesta de opinión). Aunque tomaremos nuestros ejemplos fundamentalmente en poblaciones humanas, hay que mantener en la mente la noción de poblaciones y caracteres más generales. Veamos algunos ejemplos.

 

Población

Carácter

Elementos químicos

Número de isotopos

Galaxias

Número de estrellas

Estrellas

Magnitud

Cromosomas

Número de genes

Genes

Número de bases proteícas

Ciudades

Tasa fiscal

Países

Producto interno bruto

Filmes

Entradas vendidas

Meses del año

Monto de las exportaciones

 

Un carácter se llama:

·          cualitativo, cuando toma valores que no pueden ser ordenados (grupo sanguíneo, color de los ojos, voto por un candidato).

·          ordinal, si los valores que toma pueden ponerse en orden sin que las diferencias sean interpretables (opiniones expresadas a partir de una escala de valores).

·          cuantitativo, cuando toma valores numéricos (medidas físicas, fisiológicas, económicas).

Los valores que puede tomar un carácter se llaman las modalidades.

Para facilitar el tratamiento computacional o matemático, se transforman los datos para llegar a caracteres cuantitativos a través de una codificación. Si el carácter inicial es cualitativo, la codificación será por lo general binaria. El caso más simple es el de un referendo donde solo hay dos modalidades codificadas 0 y 1. Para un número arbitrario m de modalidades, se podrá codificar por un vector de m variables booleanas: si el valor observado para un individuo es l , el vector asociado a este individuo tiene todas sus componentes nulas salvo la l  -ésima que vale 1. En el caso de un carácter ordinal frecuentemente se realiza la codificación empleando los primeros números enteros. Debemos recordar que la codificación es arbitraria y que los resultados numéricos que se obtienen después de la codificación pueden depender de ésta. Existen técnicas específicas para el tratamiento especial de los caracteres cualitativos y ordinales. Aquí nos limitaremos esencialmente a los caracteres cualitativos.

La estadística interviene cuando es imposible, o inútil, observar un carácter sobre el total de la población. Lo observamos entonces sobre una subpoblación de tamaño reducido esperando extraer conclusiones que puedan ser generalizadas a toda la población. Si los datos sobre un carácter cuantitativo se pueden obtener sobre n  individuos, el resultado es una  n -tupla de números, enteros o decimales,  que llamamos muestra o serie estadística, de talla o tamaño . El término de muestra lo reservamos más bien para el resultado de  n experiencias realizadas una independiente de las otras en condiciones idénticas (lanzamiento de dados, medida del peso de n     recién nacidos,...). Llamaremos serie estadística al resultado de  n   experiencias que no son intercambiables entre sí. El caso más frecuente es el en que la población está formada por instantes sucesivos (lectura diaria de temperaturas, cantidad mensual de desempleados,...).

 

 

Inferencias acerca de los coeficientes de regresión de la población.

Análisis de regresión

 

En un Análisis de Regresión simple existe una variable respuesta o dependiente (y) que puede ser el número de especies, la abundancia o la presencia-ausencia de una sola especie y una variable explicativa o independiente (x). El propósito es obtener una función sencilla de la variable explicativa, que sea capaz de describir lo más ajustadamente posible la variación de la variable dependiente. Como los valores observados de la variable dependiente difieren generalmente de los que predice la función, ésta posee un error. La función más eficaz es aquella que describe la variable dependiente con el menor error posible o, dicho en otras palabras, con la menor diferencia entre los valores observados y predichos. La diferencia entre los valores observados y predichos (el error de la función) se denomina variación residual o residuos. Para estimar los parámetros de la función se utiliza el ajuste por mínimos cuadrados. Es decir, se trata de encontrar la función en la cual la suma de los cuadrados de las diferencias entre los valores observados y esperados sea menor. Sin embargo, con este tipo de estrategia es necesario que los residuos o errores estén distribuidos normalmente y que varíen de modo similar a lo largo de todo el rango de valores de la variable dependiente. Estas suposiciones pueden comprobarse examinando la distribución de los residuos y su relación con la variable dependiente.

Cuando la variable dependiente es cuantitativa (por ejemplo, el número de especies) y la relación entre ambas variables sigue una línea recta, la función es del tipo y= c + bx, en donde c es el intercepto o valor del punto de corte de la línea de regresión con el eje de la variable dependiente (una medida del número de especies existente cuando la variable ambiental tiene su mínimo valor) y b es la pendiente o coeficiente de regresión (la tasa de incremento del número de especies con cada unidad de la variable ambiental considerada). Si la relación no es lineal pueden transformarse los valores de una o ambas variables para intentar linearizarla. Si no es posible convertir la relación en lineal, puede comprobarse el grado de ajuste de una función polinomial más compleja. La función polinomial más sencilla es la cuadrática (y= c + bx + bx2) que describe una parábola, pero puede usarse una función cúbica u otra de un orden aun mayor capaz de conseguir un ajuste casi perfecto a los datos. Cuando la variable dependiente se expresa en datos cualitativos (presencia-ausencia de una especie) es aconsejable utilizar las regresiones logísticas (y= [ exp (c + bx)] / [ 1 + exp (c + bx)] ).

 

Estadística para las inferencias acerca de los coeficientes de regresión

Las inferencias acerca de los coeficientes de regresión a  y  b se pueden basar en las  estadísticas  cuyas  distribuciones  del  muestreo son t con n – 2 grados de libertad. Las cantidades de los denominadores son estimaciones de los errores estándar correspondientes con Se sustituida por s.

 

 

 

 

 

Predicción y pronosticación.

 

Predicción:

Es el anuncio anticipado de un suceso. Uno de los frutos más importantes de la investigación científica y uno de los exámenes más exigentes de toda hipótesis es la posibilidad de hacer predicciones. El razonamiento estadístico se aplica a todas las predicciones en las ciencias del comportamiento.

Las ideas estadísticas no solamente son guía en la for­mulación de proposiciones de predicción por naturaleza sino que también permiten decir algo definido en cuanto a lo confiable de las predicciones que se hacen acerca de la magnitud del error que se ha de esperar en el fenómeno predicho.

 

Tipos generales de predicción

Se tienen cuatro casos generales de predicción: 

 

Maneras generales de evaluar la exactitud de predicción.

Las predicciones son evidentemente sólidas si resultan correctas. El grado de corrección, está indicado por la frecuencia o la cercanía con que se acierte. En el caso de predicción de atributos, el éxito obtenido se puede indicar numéricamente en términos de los porcentajes de "aciertos" o "desaciertos". Pero una manera más aceptada es preguntarse hasta dónde son mejores las predicciones, en el sentido de en cuanto se han reducido los errores en comparación con lo que hubieran sido si no se hubiese utilizado la información disponible, es decir, si no se hubiera tratado de predecir una cosa partiendo del conocimiento de otra.

En la predicción de medidas, por atributos o por otras medidas, se plantea un interrogante parecido. Pero en tanto que al predecir atributos se opera en función del número de aciertos y desaciertos, al predecir medidas se opera en términos de por cuánto en promedio no se ha acertado. Se compara esta desviación promedio entre el hecho y la predicción con el promedio de los errores que se hubieran cometido sin utilizar lo conocido como base de predicción.

 

Pronósticos:

Los pronósticos son predicciones de lo que puede suceder o esperar, son premisas o suposiciones básicas en que se basan la planeación y la toma de decisiones.

 

Usos de los pronósticos

Tamaño del mercado

Participación en el mercado

Tendencia de precios

Desarrollo de nuevos productos

Costo de materia prima

Costo de mano de obra

Disponibilidad de materia prima

Disponibilidad de mano de obra

Requerimientos de mantenimiento

Capacidad disponible de la planta para la producción

Tasas de interés

Cuentas de pagos lentos

Número de trabajadores

Rotación de personal

Tendencias de ausentismo

Tendencia de llegadas tarde

Factores económicos

Cambios de precios

Costos

Crecimiento de líneas de productos

 

Características de los Pronósticos

 

 

Selección del Método de Pronósticos

Factores.

 

Clasificación de los Métodos de Pronósticos

Los métodos de pronósticos se clasifican en:

Cualitativos:

Los modelos cualitativos se usan cuando los datos son escasos, por ejemplo cuando se introduce un producto nuevo al mercado.

Estos modelos usan el criterio de la persona y ciertas relaciones para transformar información cualitativa en estimados cuantitativos.

Método Delphi. Se usa para pronósticos a largo plazo, pronósticos de ventas de productos nuevos y pronósticos tecnológicos.

Tiempo estimado, más de dos meses.

Exactitud, de regular a muy buena.

Investigación de Mercados. Se usa para evaluar y probar hipótesis acerca de mercados reales.

Tiempo estimado, más de tres meses.

Exactitud, puede ser excelente, dependiendo del cuidado que se haya puesto en el trabajo.

Consenso de un Panel. Tiene los mismos usos que el Método Delphi.

Tiempo estimado, más de dos semanas.

Exactitud, de baja a regular.

Pronósticos Visionarios. Se usa para hacer una profecía del futuro usando la intuición personal.

Tiempo estimado, una semana.

Exactitud, mala.

Analogía Histórica. Se usa para productos nuevos, basándose en el análisis comparativo de la introducción y crecimiento de productos similares.

Tiempo estimado, más de un mes.

Exactitud, de buena a regular.

 

Cuantitativos:

Análisis de series de tiempo. El análisis consiste en encontrar el patrón del pasado y proyectarlo al futuro.

 

Métodos de proyección. Estos métodos tratan de encontrar el patrón total de los datos para proyectarlos al futuro, y son:

·         Promedios Móviles

·         Suavización Exponencial

·         Box-Jenkins

Método de separación. Es aquel que separa la serie en sus componentes para identificar el patrón de cada componente, y se llama, Método de Descomposición de Series de Tiempo.

 

Modelos Causales :

 Modelos de Regresión

 

Modelos Econométricos. Un modelo econométrico es un sistema de ecuaciones de regresión interdependientes que describe algún sector de actividades económicas, ventas o utilidades.

Encuestas de intenciones de compra y anticipaciones. Estas encuestas que se hacen al público, determinan:

a. Las intenciones de compra de ciertos productos.

b. Derivan un índice que mide el sentimiento general sobre el consumo presente y futuro y estiman como afectan estos sentimientos a los hábitos de consumo. Este enfoque para hacer pronósticos es más útil que otras técnicas para seguir el desarrollo de la demanda y para señalar puntos de peligro.

Modelo de insumo-producto. Método de análisis que determina el flujo de bienes y servicios interindustrial o interdepartamental en una economía o en una compañía y su mercado. Muestra flujos de insumos que deben ocurrir para obtener ciertos productos.

 

 

 

Análisis de correlación.

Es muy frecuente encontrar casos de correlación tratados como una regresión y viceversa. Hay varias razones para ello:

 - Las relaciones matemáticas entre ambos modelos son muy estrechas, se puede pasar de uno a otro con mucha facilidad en los cálculos y eso siempre ha sido una tentación muy fuerte. Básicamente, el cuadrado del coeficiente de correlación es el cociente entre la variación explicada y la total, que se calculan exactamente igual en ambos modelos:

Es el coeficiente de correlación (fórmula del producto-momento de K.R. Pearson)

 

 

es el coeficiente de regresión lineal

 

 

Y la relación entre ambos es:

 

Esta última relación no tiene ningún significado conceptual, simplemente se trata de una analogía en los cálculos. Desdichadamente, muchos la usan como si fuera lo mismo y mezclan la regresión con la correlación, lo cual no es correcto.

Cuando calculamos r con base en datos muéstrales, podemos obtener una fuente correlación positiva o negativa meramente por casualidad, aunque en realidad no existe relación alguna entre las dos variables que consideramos.

Suponga, por ejemplo, que tomamos un par de dados, uno rojo y uno verde los lanzamos cinco veces y obtenemos los resultados siguientes

 

Dado rojo,

x

Dado verde,

y

4

2

4

2

6

5

2

6

1

4

 

Es probable que no exista ninguna relación entre “x”  y “y”, los números de puntos que se obtienen con los dos dados. Es difícil ver por qué los valores altos de x deben ir con los valores altos de y, y los valores bajos de x deben ir con los valores bajos de y, pero calculando r, encontramos el valor sorprendentemente alto r =0.66. Esto da  lugar a la preguntas de si hay algo erróneo en la suposición de que no existe ninguna relación entre x e y, y para responderla tendremos que verificar si se puede atribuir a la probabilidad el valor alto de r.

Cuando calculamos un coeficiente de correlación con base en datos muéstrales, como en el ejemplo anterior, el valor que obtenemos para r es sólo una estimación de un parámetro correspondiente, el coeficiente de correlación de la población, que se representa por medio de ρ (la letra griega, ro). Lo que r mide para una muestra ρ lo mide para una población.

Para hacer inferencias acerca de ρ con base en r, debemos hacer varias suposiciones acerca de las distribuciones de las variables aleatorias cuyos valores observamos. En análisis de correlación normal, hacemos las mismas suposiciones que en el análisis de regresión normal, excepto que las x’s no son constantes, sino valores de una viable aleatoria que tiene una distribución normal.

Ya que la distribución del muestreo de r es más bien complicada de acuerdo con estas suposiciones, en la práctica es común hacer inferencias acerca de ρ con base en la transformación de Z de fisher, un cambio de escala de r a Z que se obtiene por medio de:

 

1

Hosted by www.Geocities.ws