UNIVERSIDAD YACAMBÚ

Autores:
Moira Soto
Ingrid Chávez
Shirley Alarcón
Rafael Rada
Luis Omar Sánchez
La
ciencia de la estadística ofrece numerosos métodos para revelar y presentar las
asociaciones entre dos y hasta más variables. Los medios más simples son los
medios de presentación gráfica y tabulación. La intensidad de la asociación
entre variables puede también describirse como una estadística especial.
En el
análisis propiamente dicho de los datos, el propósito es extraer una invariante
o estructura de interés a partir de los
datos. Si al analizar los datos, se descubre alguna
asociación entre las variables, el investigador indagará la razón de esta asociación en el mundo
empírico y le buscará la explicación a
esta asociación utilizando la
descripción y aplicación .
A continuación
métodos de análisis estadístico a través de los cuales se estudia la interdependencia entre una o más
variables.
|
Escala nominal |
Escala ordinal |
Escala de intervalo |
Escala de proporción |
|
|
Presentar datos y su estructura a
grandes rasgos |
Tabulación
; Gráficos |
|||
|
Medir la fuerza de la asociación entre
dos variables |
Coeficiente
de contingencia |
|||
|
- |
Correlación
ordinal |
|||
|
- |
- |
Correlación
r de Pearson |
||
|
Encontrar qué variables entre varios son
asociadas: |
Calcular
contingencias o correlaciones para todos los pares de variables ; análisis
factorial |
|||
|
Transcribir una asociación estadística
en una función matemática: |
- |
- |
Análisis de
regresión |
|
La
tabulación es una forma habitual de presentar las asociaciones entre dos o más variables.
Una tabla tiene la ventaja de que en ella puede disponerse bien una cantidad
extensa de datos y se conservan las cifras exactas. Una desventaja es que una
tabla grande no es ilustrativa: raras veces revela algo más que las más obvias
regularidades o interdependencias entre datos. Algunas abreviaturas
convencionales usadas en tablas se presentan bajo el encabezado Clasificar.
Los productos, como objetos de
estudio, son presentados con frecuencia como imágenes, que son una forma de
presentación gráfica.
Ejemplo:



Dependiendo de los datos que el investigador
desee ilustrar puede utilizar diferentes tipos de gráficos, por ejemplo:
Si el investigador
desea resaltar algunos rasgos comunes o patrones generales que ha encontrado en
un grupo de objetos, puede combinar varios objetos en un gráfico.
Si los
datos consisten en pocas mediciones, es posible mostrarlos todos como un
diagrama de dispersión. Podemos exhibir los valores de dos variables sobre los
ejes de abscisas y ordenadas, y adicionalmente unas cuantas variables más
utilizando los colores o formas de los puntos.
Si la variación
es demasiado pequeña para que aparezca claramente, podemos darle énfasis
eliminando partes de una o ambas escalas. Simplemente eliminamos la parte
que no nos interesa, sea por la parte superior o por la inferior.
Por otro
lado, si el rango de variación de los datos es muy amplio, podemos plantearnos
usar una escala logarítmica en uno o ambos ejes. La escala logarítmica es
apropiada solamente en una escala de proporción.
Si son
cientos de mediciones, es probable que no se puedan mostrar todas en forma de diagrama de
dispersión. Una posibilidad en este caso es clasificar los casos y presentarlos
como un histograma.
El histograma puede adaptarse para presentar hasta cuatro o cinco variables.
Esto se logra variando las anchuras de las columnas, sus colores, sus tramados
y por una representación tridimensional. Todas estas variaciones se crean
fácilmente con un programa de hoja de cálculo como Excel, pero no deben ser
usadas sólo como adorno.
El
investigador suele estar interesado en las relaciones de dos o más variables
antes que en las parejas de mediciones tomadas separadamente. La forma normal
de presentar dos o más variables interdependientes es la curva. Esto implica
una variable continua (es decir, en que el número de posibles valores es infinito).
No se deben producir curvas a partir de mediciones que no son valores de la misma variable. Por ejemplo, los atributos de un objeto son variables diferentes.
MODELOS DE REGRESIÓN BIVARIABLE LINEAL
El
investigador suele tener razones teóricas o prácticas para creer que
determinada variable es causalmente dependiente de una o más variables
distintas. Si hay bastantes datos empíricos sobre estas variables, el análisis
de regresión clásico o "multivariate" es un método apropiado para
desvelar el patrón exacto de esta asociación.
El
análisis de la regresión encuentra la ecuación lineal que se desvía lo menos
posible de las observaciones empíricas.
Modelos de Regresión
Un modelo
de regresión, es una manera de expresar dos ingredientes esenciales de una
relación estadística:
-
Una tendencia de la variable dependiente Y a variar
conjuntamente con la variación de la o las X de una manera sistemática
-
Una dispersión de las observaciones alrededor de la
curva de relación estadística.
Estas dos
características están implícitas en un modelo de regresión, postulando que:
En la
población de observaciones asociadas con el proceso que fue muestreado, hay una
distribución de probabilidades de Y para cada nivel de X.
Las medias
de estas distribuciones varían de manera sistemática al variar X.
Representación
gráfica del modelo de Regresión Lineal
Nota: en esta figura se muestran
las distribuciones de probabilidades de Y para distintos valores de X
-
Objetivo: determinar la ecuación de regresión para
predecir los valores de la variable dependiente (Y) en base a la o las
variables independientes (X).
-
Procedimiento: seleccionar una muestra a partir de
la población, listar pares de datos para cada observación; dibujar un diagrama
de puntos para dar una imagen visual de la relación; determinar la ecuación de
regresión.
Cada
error está normalmente distribuido con:
-
Esperanza de los errores igual a 0
-
Variancia de los errores igual a una constante
σ².
-
Covariancia de los errores nulas para todo i ≠
Ψ
El término regresión fue introducido por Francis
Galton en su libro Natural inheritance (1889), partiendo de los análisis
estadísticos de Karl Pearson. Su
trabajo se centró en la descripción de los rasgos físicos de los descendientes
(variable A) a partir de los de sus padres (variable B). Estudiando la altura
de padres e hijos a partir de más de mil registros de grupos familiares, se
llegó a la conclusión de que los padres muy altos tenían una tendencia a tener
hijos que heredaban parte de esta altura, pero que revelaban también una
tendencia a regresar a la media. Galton generalizó esta tendencia bajo
la "ley de la regresión universal": «Cada peculiaridad en un hombre
es compartida por sus descendientes, pero en media, en un grado menor.»
Artículo principal:
·
Regresión lineal
·
Regresión lineal
simple
Dadas dos
variables (Y: variable dependiente; X: independiente) se trata de encontrar una
función simple (lineal) de X que nos permita aproximar Y mediante: Ŷ = b0
+ b1X
b0 (ordenada en el origen,
constante)
b1 (pendiente de la recta)
A la cantidad e=Y-Ŷ se le
denomina residuo o error residual.
Así, en el
ejemplo de Pearson: Ŷ = 85 cm + 0'5X
Donde Ŷ es la altura predicha del
hijo y X la altura del padre: En media, el hijo gana 0,5 cm. por cada cm. del
padre.
ESTIMACIÓN DE PARÁMETROS DE REGRESIÓN
En estadística
se llama estimación al conjunto
de técnicas que permiten dar un valor aproximado de un parámetro de una
población a partir de los datos proporcionados por una muestra.
En su versión más
simple, una estimación de la media de una determinada característica de una
población de tamaño N sería la media de esa misma característica para una
muestra de tamaño n.
Variables
independientes (predictoras, explicativas exógenas). Son las variables que
proveen las bases para estimar.
Regresión
simple: interviene una sola variable independiente
Regresión
múltiple: intervienen dos o más variables independientes.
Regresión
lineal: la función es una combinación lineal de los parámetros.
Regresión no
lineal: la función que relaciona los parámetros no es una combinación lineal
Modelo de regresión
y = β0+ β1x
+ ε Ecuación de regresión
E(y) = β0+ β1x Parámetros desconocidos
β0.β1 |
Datos de la muestra
|
||||
|
b0 y b1 proporcionan estimados
β0 y β1 |
Ecuación estimada de regresión
y = b0+b1x Estadísticos de la muestra
b0.b1 |
Y´ = a + b.X,
donde:
- Y´ es el valor estimado de Y
para distintos X.
- a es la intersección o
el valor estimado de Y cuando X=0
- b es la pendiente de la
línea, o el cambio promedio de Y´ para cada cambio en una unidad de X
- el principio de mínimos cuadrados es
usado para obtener a y b:
a = (∑Y)/n
- b.(∑X)/n
El modelo de
regresión es lineal en los parámetros.
Los valores de X
son fijos en muestreo repetido.
El valor medio
de la perturbación εi es igual a cero.
Homocedasticidad
o igual variancia de εi.
No
autocorrelación entre las perturbaciones.
La covariancia
entre εi y Xi es cero.
El número de
observaciones n debe ser mayor que el número de parámetros a estimar.
Variabilidad en
los valores de X.
El modelo de
regresión está correctamente especificado.
No hay
relaciones lineales perfectas entre las explicativas.
Debe ser
estimada por varios motivos
Para tener una
indicación de la variabilidad de las distribuciones de probabilidad de Y.
Para realizar
inferencias con respecto a la función de regresión y la predicción de Y.
La lógica del
desarrollo de un estimador de σ²
para el modelo de regresión es la misma que cuando se muestrea una sola
población
La variancia de
cada observación Yi es σ²,la
misma que la de cada término del error
Dado que los Yi
provienen de diferentes distribuciones de probabilidades con medias diferentes
que dependen del nivel de X, la desviación de una observación Yi
debe ser calculada con respecto a su propia media estimada Yi.
Por tanto, las desviaciones
son los residuales
Y la suma de
cuadrados es:
La suma de
cuadrados del error, tiene n-2 grados de libertad asociados con ella, ya que se
tuvieron que estimar dos parámetros.
Por lo tanto,
las desviaciones al cuadrado dividido por los grados de libertad, se denomina
cuadrados medios
Donde
CM es el Cuadrado medio del error o cuadrado medio residual. Es un estimador
insesgado de σ²
El
enfoque desde el análisis de variancia se basa en la partición de sumas de
cuadrados y grados de libertad asociados con la variable respuesta Y.
La variación de
los Yi se mide convencionalmente en términos de las desviaciones
La medida de la
variación total SC tot, es la suma de las desviaciones al cuadrado
Consideremos la
desviación
Podemos
descomponerla en
(Yi - Y)
|
=
|
(Ŷi - Y)
|
+ |
(Yi - Ŷi)
|
T
|
|
R
|
|
E
|
(T):
desviación total
(R): es
la desviación del valor ajustado por la regresión con respecto a la media
general
(E):
es la desviación de la observación con respecto a la línea de regresión
Si
consideremos todas las observaciones y elevamos al cuadrado para que los
desvíos no se anulen
∑(Yi - Y)²
|
=
|
∑(Ŷi - Y)²
|
+ |
∑(Yi - Ŷi)²
|
SC tot
|
|
SC reg
|
|
SCer
|
(SC tot):
Suma de cuadrados total
(SC reg):
Suma de cuadrados de la regresión
(SCer):
Suma de cuadrados del error
Dividiendo por
los grados de libertad, (n-1), (k) y
(n-2), respectivamente
cada suma de cuadrados, se obtienen los cuadrados medios del análisis de
variancia.
Coeficiente de
Determinación, R2 - es la proporción de la variación total en la
variable dependiente Y que es explicada o contabilizada por la variación
en la variable independiente X.
- El coeficiente de
determinación es el cuadrado del coeficiente de correlación, y varia entre 0 y
1.
Existen dos tipos de 5 categóricas. Consisten en afirmaciones que indican que ciertos
eventos (o valores de variables) particulares van a ocurrir o no - las
predicciones se indican sin cualidades. Por ejemplo, "esta noche va a
llover" o "mañana la temperatura subirá hasta 25°C".
Predicciones probabilistas. Consisten en afirmaciones sobre la probabilidad de
que ocurra un evento. Por ejemplo, "esta noche hay un 80% de probabilidad
de que llueva" o "hay un 10% de probabilidad de que la temperatura
suba más de 3°C sobre la normal".
Nótese que esos dos tipos de predicciones están relacionados: las
predicciones categóricas son de hecho predicciones probabilistas en las que las
únicas probabilidades que se utilizan son 0 y 1.
• Ventas
por una empresa para comprobar nivel de stocks
•
Rentabilidad de una inversión para determinar si buena inversión
• Ventas
de un nuevo producto para decidir su producción
• Efectos de
una medida de política económica
•
Población estudiantil de aquí a 15 años, para construcción colegios
• Tipo de
interés para decidir qué tipo de préstamo escoger
Es el conjunto de técnicas estadísticas empleado para medir la intensidad
de la asociación entre dos variables.
El principal objetivo del análisis de correlación consiste en determinar que
tan intensa es la relación entre dos variables. Normalmente, el primer paso es
mostrar los datos en un diagrama de dispersión.
1.
Diagrama de Dispersión.- es
aquel grafico que representa la relación entre dos variables.
Variable
Dependiente.- es la variable que se predice o calcula. Cuya
representación es "Y"
Variable Independiente.-
es la variable que proporciona las bases para el calculo. Cuya representación
es: X1,X2,X3.......
Coeficiente de
Correlación.- Describe la intensidad de la relación entre dos
conjuntos de variables de nivel de intervalo. Es la medida de la intensidad de
la relación lineal entre dos variables.
El valor del coeficiente de correlación puede tomar valores desde menos uno
hasta uno, indicando que mientras más cercano a uno sea el valor del
coeficiente de correlación, en cualquier dirección, más fuerte será la
asociación lineal entre las dos variables. Mientras más cercano a cero sea el
coeficiente de correlación indicará que más débil es la asociación entre ambas
variables. Si es igual a cero se concluirá que no existe relación lineal alguna
entre ambas variables.
Análisis de
regresión.- Es la técnica empleada para desarrollar la ecuación y
dar las estimaciones.
Ecuación de
Regresión.- es una ecuación que define la relación lineal entre dos
variables.
Ecuación de regresión Lineal: Y’ = a + Bx
Ecuación de regresión Lineal Múltiple: Y’ = a + b1X1 + b2X2
+ b3X3...
Principio de
Mínimos Cuadrados.- Es la técnica empleada para
obtener la ecuación de regresión, minimizando la suma de los cuadrados de las
distancias verticales entre los valores verdaderos de "Y" y los
valores pronosticados "Y".
Análisis de
regresión y Correlación Múltiple.- consiste en estimar una
variable dependiente, utilizando dos o más variables independientes.
Ecuación de regresión Múltiple.- La forma general
de la ecuación de regresión múltiple con dos variables independientes es:
|
Y' = a + b1X1
+ b2X2 |
X1,X2 : Variables
Independientes
a : es la ordenada del punto de
intersección con el eje Y.
b1 : Coeficiente de Regresión (es la variación neta en Y por
cada unidad de
variación en X1.).
b2 : Coeficiente de Regresión (es el cambio neto en Y para
cada cambio
unitario en X2).
Prueba Global.- esta prueba investiga básicamente si es
posible que todas las variables independientes tengan coeficientes de regresión
neta iguales a 0.
2.
Desarrollo de un Caso.
Una agencia de Viajes desea saber la relación que hay entre las
ventas, el presupuesto destinado a publicidad, y las comisiones de los
vendedores para esto presenta los siguientes datos. Realice los análisis
respectivos.
|
|
Y |
X1 |
X2 |
|
AÑO |
VENTAS |
GASTOS DE PUBLICIDAD |
COMISIONES DE
VENDEDORES |
|
2000 |
264000 |
550 |
15840 |
|
2001 |
384000 |
590 |
19250 |
|
2002 |
400200 |
680 |
26013 |
|
2003 |
422400 |
700 |
16896 |
|
2004 |
543000 |
750 |
16290 |
3.
ANÁLISIS DE DATOS:
Se van a utilizar las siguientes variables:
Variables Independientes:
1.- Gastos de Publicidad
4.
2.- Comisión de vendedores
5.
Variable dependiente:
- Ventas
Utilizando el Excel obtenemos los siguientes datos.
|
Estadísticas de
la Regresión |
|
|
Coeficiente de correlación múltiple |
0.92092 |
|
Coeficiente de determinación R2 |
0.84810 |
|
R2 ajustado |
0.69619 |
|
Error típico |
54887.83156 |
|
Observaciones |
5 |
De aquí se puede decir:
- De acuerdo al valor del coeficiente dee correlación múltiple, podemos afirmar
que la variable X1 (Gastos de Publicidad) y X2 (Comisión
de vendedores) se encuentran asociadas en forma directa de una manera muy fuerte
con la variable dependiente Ventas, en un 92%.
- De acuerdo al Coeficiente de determinaacción R2, podemos decir que
el 85% de las ventas pueden ser explicadas por los gastos de publicidad y las
comisiones de los vendedores.
|
A N Á L I S I S D E V A R I A N Z A |
|||||
|
|
Grados de
libertad |
Suma de cuadrados |
Prom. de los
cuadrados |
F |
Valor crítico de
F |
|
Regresión |
2 |
33640459893 |
16820229947 |
5.5832 |
0.15190282 |
|
Residuos |
2 |
6025348107 |
3012674053 |
|
|
|
Total |
4 |
39665808000 |
|
|
|
|
|
Coeficientes |
Error típico |
Estadístico t |
Probab. |
Inf. 95% |
Sup. 95% |
Inferior
95.0% |
Sup. 95.0% |
|
Intercepción |
-289315.16 |
242459.39 |
-1.193 |
0.35513 |
-1332534.446 |
753904.118 |
-1332534.446 |
753904.118 |
|
GSTOS DE
PUBLICID. |
1123.49 |
336.22 |
3.342 |
0.07908 |
-323.1275965 |
2570.108 |
-323.128 |
2570.108 |
|
COM. DE
VENDED. |
-2.27 |
6.55 |
-0.346 |
0.76245 |
-30.45400257 |
25.922 |
-30.454 |
25.922 |
De aquí se desprende la ecuación de regresión múltiple:
|
Y = - 289315 + 1123 X1 - 2.27 X2 |
EL COEFICIENTE DE
DETERMINACION O ESTADISTICA R2
El
coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una
medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo
datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como
el cociente entre la variabilidad explicada por la regresión y la variabilidad
total, esto es:
Algunas otras formas de presentar el coeficiente de
determinación son:
Algunas de las
equivalencias anteriores pueden verse a partir de la demostración de .
El coeficiente de determinación múltiple,
es una generalización del valor de definida en la lección de R cuadrado definida para una
línea recta.
Utilidad
Se
utiliza para medir la reducción en la variabilidad total de debido a la inclusión de las variables regresoras . Un valor grande de no necesariamente implica que el modelo es bueno.
Adicionar variables al modelo siempre incrementa el valor de , ya sea que las variables contribuyan o no al modelo. Es
posible que modelos con valor de grande sean malos en la predicción o estimación.
análisis de varianza en regresión lineal
Cualquiera que sea el origen de los datos experimentales que deseamos analizar para extraer conclusiones prácticas (p.ej., planillas de operación, ensayos preprogramados intencionalmente, etc.) debemos recurrir a la estadística para que nos oriente en la tarea. La forma más poderosa, quizás, de analizar estos datos es mediante los dos tipos de análisis mencionados en el título. Ambos tipos están ligados entre sí por una teoría coherente que permite transformar uno de los dos tipos de análisis en el otro.
Empecemos
por el modelo más simple. Sea un modelo lineal y de un único factor X. Este
modelo lineal, llamado también de primer orden, resulta ser
Modelo
denominado de regresión, donde OMEGA es el criterio a maximizar, b0
es la ordenada al origen y b1 es la pendiente de la recta. Ya que las
incógnitas o parámetros b0 y b1 son solamente dos, nos
alcanzan dos niveles distintos para la variable X para identificarlos. Sin
embargo, habrá que repetirlos para no dejarnos confundir por el error
experimental.
Este caso sencillo se puede mirar también desde otra óptica. Un modelo equivalente, denominado de análisis de la varianza, es el de escribir
Donde mu = el valor medio del ensayo, alfa es la incidencia sobre los resultados del factor X que estamos midiendo y e es el error experimental.
Para
entender este modelo afirmemos que el resultado de una tentativa en el nivel i
durante la replicación j , es:
i = 1,2,.., n (niveles) y j = 1,2,... m (replicaciones)
|
----------- |
Nivel 0 |
Nivel 1 |
|
Réplica 1 |
79
|
90
|
|
Réplica 2 |
80
|
91
|
|
Réplica 3 |
81
|
89
|
Niveles i = 0, 1 Réplicas j = 0,1,2
Prueba F sobre Beta
La prueba F o análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y más elaborados en la investigación moderna. El análisis de la varianza, no obstante su denominación se utiliza para probar hipótesis preferentes a las medias de población más que a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis de datos en diseños estadísticos muy complicados.
Veamos cuando se tienen puntuaciones de CI
en 5 muestras de adulto.
|
Grupos |
1 |
2 |
3 |
4 |
5 |
|
|
102 |
103 |
100 |
108 |
121 |
|
s2 |
15 |
12 |
12 |
14 |
10 |
Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo a partir de la media total o global de todos los grupos, se conoce como varianza intergrupal, la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan en forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen a que grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales se denominan variación total. El meollo del análisis de varianza radica en el siguiente hecho: si los grupos son muestras aleatorias provenientes de la misma población, las varianzas, intergrupal e intragrupal, son estimaciones insesgadas de la misma varianza poblacional. Se prueba la significación de la diferencia de los 2 tipos mediante la prueba F.
Supuestos
que fundamentan la aplicación de análisis de varianza.
Cuando se
utiliza la técnica anova se deben cumplir los siguientes supuestos:
Las personas
de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio, a
partir de poblaciones normalmente distribuidas.
La
varianza de los subgrupos debe ser homogénea.
Las
muestras que constituyen los grupos deben ser independientes. Amenos de que las
muestras sean independientes, y que por lo tanto, generen estimaciones de
varianza independientes, la razón de las varianzas inter e intra no adoptará la
distribución F.
Coeficiente de correlación por calificación
La
correlación es la medida en que dos variables están relacionadas. Puede ser que
la relación sea lineal, directamente proporcional, inversamente proporcional,
etc.
Si el coeficiente de correlación es muy bajo, significa que las variables no
tienen relación.
A menudo encontramos relaciones entre dos o
más variables. Así, si una persona es jugador de baloncesto, pensamos que
probablemente será muy alta, o si alguien tiene un alto coeficiente intelectual
pensamos que probablemente obtiene buenas calificaciones en matemáticas y, en
general, en el resto de materias, o tendemos a pensar que a mayor altura más
pesará una persona. Es decir, establecemos que existe relación entre
diferentes variables llegando a intuir, incluso, cuándo ésta relación es
muy fuerte (el caso del jugador de baloncesto y la altura), o es más débil
(quizás los que tienen un alto coeficiente intelectual encuentren antes
trabajo), o incluso podemos pensar que no existe ninguna relación (las personas
altas tienen mayor coeficiente intelectual que las bajas).
La pregunta a la que trataremos de responder en este
tema es ¿en qué medida están relacionadas dos variables?. Conociendo el valor
de una de ellas ¿hasta qué punto puedo predecir el valor de la otra?.
Cuando intentamos medir esa relación, decimos que estamos
midiendo la correlación entre las variables.
Cuando se trata de dos variables solamente, decimos
que estudiamos una correlación simple, y cuando se trata de más de dos
variables decimos que estudiamos una correlación múltiple.
La estadística descriptiva bivariada aborda el
estudio de los sucesos en los que intervienen dos variables simultáneamente.
En muchos casos la relación entre determinadas
variables no pueden medirse con una escala cuantitativa.
Por ejemplo: la relación entre el género y la
ideología política.
Al no cuantificarse numéricamente las variables no
se puede hablar de una correlación directa o inversa.
Por ejemplo: decir que a mayor género, mayor
ideología política no tiene sentido.
Por lo tanto, cuando decimos que dos variables
nominales X e Y están relacionadas, queremos decir que las proporciones de X
(género: hombre, mujer) son diferentes en cada categoría de Y (ideología
política: izquierda, derecha). Si X e Y no están relacionadas,
entonces las proporciones de X serán iguales en las distintas categorías de Y.
A las frecuencias que esperaríamos obtener si X e Y
estuvieran relacionadas se les denomina frecuencias observadas.
A las frecuencias que esperaríamos obtener si X e Y
no estuvieran relacionadas se les denomina frecuencias esperadas.
CONCLUSIÓN
La estadística es comúnmente considerada como una colección de hechos numéricos expresados en términos de una relación sumisa, y que han sido recopilado a partir de otros datos numéricos; por otra parte las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante números. Son caracteres susceptibles de medición. Como por ejemplo, la estatura, el peso, el salario, la edad, etc.
La estadística ofrece numerosos
métodos para revelar y presentar las asociaciones entre variables los más
usados son: presentación gráfica y tabulación.
Cuando
determinada variable es causalmente dependiente de una o más variables
distintas, el análisis de regresión
clásico o "multivariate" es el método apropiado para descubrir si
determinada variable es causalmente dependiente de una o más variables
diferentes. El término regresión fue introducido por Francis Galton en su libro
Natural inheritance (1889), partiendo de los análisis estadísticos de Karl Pearson. Su trabajo se centró en la
descripción de los rasgos físicos de los descendientes (variable A) a partir de
los de sus padres (variable B).
Las predicciones
pueden ser dos: las categóricas y las probabilísticas, las cuales son
enunciaciones de valores de variables
que se pronostican y que pueden ocurrir o no.
El coeficiente de determinación o coeficiente de correlación múltiple al cuadrado, es una
medida descriptiva que sirve para evaluar la bondad de ajuste del modelo a lo
datos, ya que mide la capacidad predictiva del modelo ajustado. Se define como
el cociente entre la variabilidad explicada por la regresión y la variabilidad
total, esto es:
La
regresión como una técnica estadística, una de ellas la regresión lineal simple y
la regresión multifactorial, analiza la relación de dos o mas variables
continuas, cuando analiza las dos variables a esta se el conoce como variable
bivariantes que pueden corresponder a variables cualitativas, la regresión nos
permite el cambio en una
de las variables llamadas respuesta y que corresponde a otra conocida como
variable explicativa, la regresión es una técnica utilizada para inferir datos a partir
de otros y hallar una respuesta de lo que puede suceder.
INFOGRAFÍA
1.
NOCIONES DE
REGRESIÓN LINEAL
La estimación de los coeficientes
de una regresión múltiple es un cálculo
bastante complicado y laborioso, por lo que se requiere del empleo de
programas de computación especializados.
2. ESTADÍSTICA
Una
variable no aleatoria (asociada al resultado de una experiencia que sí produce
el mismo resultado) está caracterizada por un valor para cada condición.
http://www.hrc.es/bioest/estadis_1.html
3. CORRELACION Y MODELOS DE REGRESION LINEAL
La
función densidad de probabilidad (fdp) para una variable aleatoria es
una función a partir de la cual se puede calcular la probabilidad de los
distintos valores de la variable.
http://www.hrc.es/bioest/M_docente.html
La ciencia
de la estadística ofrece numerosos métodos para revelar y presentar las
asociaciones entre dos y hasta más variables. La intensidad de la asociación
entre variables puede también describirse como una estadística especial, como
el coeficiente de contingencia y una correlación para lo que hay varios métodos
de análisis disponibles.
http://www2.uiah.fi/projects/metodi/280.htm#2muut
La regresión estadística o
regresión a la media es la tendencia de una medición extrema a presentarse más
cercana a la media en una segunda medición. La regresión se utiliza para
predecir una medida basándonos en el conocimiento de otra.
http://es.wikipedia.org/wiki/Regresión_(estadística)
6.
TIPOS DE
PREDICCIÓN.
En este
link podemos encontrar los Tipos De Predicción, como lo son: • Según
el horizonte:– A corto, medio o largo plazo – Longitud del plazo:
concepto relativo
http://www.um.es/econometria/tecpre/teoria/introduccion.pdf
7. GREGRESIÓN Y CORRELACIÓN
Análisis de Correlacion- Es el conjunto de técnicas estadísticas empleado
para medir la intensidad de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en
determinar que tan intensa es la relación entre dos variables. Normalmente, el
primer paso es mostrar los datos en un diagrama de
dispersión.
http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml
8.
COEFICIENTE DE DETERMINACIÓN
Dado que
el coeficiente de determinación es un estadístico que sobreestima el verdadero
valor del parámetro (Cramer, 1987) es
una práctica habitual la obtención del “coeficiente de determinación corregido”
(Wherry,
1931) ,
http://www.psico.uniovi.es/REMA/v9n2/a1/n9v2a1_3.htm
9. FUNCIONES ESTADÍSTICAS
Prueba F: Devuelve el resultado de una prueba F. Distr. Beta: Devuelve la función de distribución beta acumulativa
http://office.microsoft.com/es-es/excel/HP100791903082.aspx
El análisis de correlación se refiere a las técnicas usadas para medir el grado de relación entre variables. Por ejemplo, la estatura y el peso se encuentran relacionados: las personas más altas suelen pesar más que las más bajas. Pero la relación no es perfecta.
http://www.surveysystem.com/correlatione.htm
11. ESTADÍSTICA DESCRIPTIVA BIVARIADA
Cuando intentamos medir esa relación, decimos que estamos midiendo la correlación entre las variables. Cuando se trata de dos variables solamente, decimos que estudiamos una correlación simple, y cuando se trata de más de dos variables decimos que estudiamos una correlación múltiple. La estadística descriptiva bivariada aborda el estudio de los sucesos en los que intervienen dos variables simultáneamente.
http://www.uma.es/estudios/departamentos/psicobioymeto/docencia/lola/tema3.htm
12. CORRELACIÓN
Existen diversas técnicas
de correlación. El Módulo opcional de Estadísticas incluye la clase más común,
llamada correlación de Pearson o correlación de momento-producto. El módulo
también incluye una variación de esta clase llamada correlación parcial. Esta
última resulta útil cuando se desea observar la relación entre dos variables al
limitar el efecto de una o dos variables. Al igual que todas las técnicas de
estadística, la correlación sólo resulta apropiada para ciertas clases de
datos.
http://www.surveysystem.com/correlatione.htm
Ø
http://www.hrc.es/bioest/estadis_1.html
Ø
http://campusvirtual.uma.es/est_fisio/apuntes/
Ø
http://www.hrc.es/bioest/M_docente.html
Ø
http://www.fisicanet.com.ar/matematica/estadisticas/ap07_regresion_y_correlacion.php
Ø
http://www2.uiah.fi/projects/metodi/280.htm#2muut
Ø http://es.wikipedia.org/wiki/Regresión_(estadística)
Ø
http://ciberconta.unizar.es/LECCION/REDES/180.HTM
Ø
http://dialnet.unirioja.es/servlet/articulo?codigo=1033236
Ø
http://www.um.es/econometria/tecpre/teoria/introduccion.pdf
Ø http://www.monografias.com/trabajos30/regresion-correlacion/regresion-correlacion.shtml
Ø http://www.uma.es/estudios/departamentos/psicobioymeto/docencia/lola/tema3.htm
Ø http://www.surveysystem.com/correlatione.htm
Ø http://europa.eu.int/en/comm/eurostat/research/isi/alpha/es/es67.htm