 |
ESTATÍSTICA
AULA Nº 18
UNIDADE 7 - REGRESSÃO E CORRELAÇÃO |
|
7.1
– INTRODUÇÃO
Após uma coleta de dados referentes a duas ou mais variáveis
para uma mesma amostra é comum tentar estabelecer uma
relação matemática entre estas variáveis.
A
primeira providência para se determinar a relação é
construir um gráfico em um sistema de coordenadas
retangulares, obtendo então o que normalmente é chamado de
diagrama de dispersão.
Pelo diagrama, muitas
vezes, é possível visualizar a curva que melhor se aproxima
dos pontos da distribuição. Esta curva é denominada
curva aproximadora.
Tomemos, por exemplo as distribuições abaixo:
|
 |
 |
|
|
|
|
 |
Dos estudos da Matemática
pode-se reconhecer que, em:
(a) não há previsão da curva aproximada;
(b) a curva aproximada é uma parábola (y = ax2 + bx + c);
(c) a curva aproximadora é uma reta ( y = ax + b);
(d) a curva aproximadora é uma hipérbole (y = a/x + b).
O
processo de ajustamento de uma distribuição de variáveis a uma curva
é denominado regressão. A relação matemática entre as variáveis pode
ser obtida em função de x ou em função de y.
A
equação de y em função de x, y = f(x) é denominada equação de
regressão de y sobre x e a equação de x em função de y,
x = f(y) é denominada equação de regressão de x sobre y. |
|
É
aconselhável obter as duas equações e verificar qual delas é
a de melhor ajuste. As duas formas também são interessantes
quando se deseja interpolar, isto é, dado um valor (fora da
tabela) de x calcular o valor de y a ele associado ou quando
dado um valor de y (fora da tabela) determinar um valor de x
associado a ele.
Tendo em vista os objetivos deste curso
analisaremos apenas a regressão linear usando o método dos
mínimos quadrados.
Para um
estudo mais amplo, veja o conteúdo de Cálculo Numérico
contido no site
http://br.geocities.com/cesariof .
|
 |
|
 |
7.2
– COEFICIENTE DE CORRELAÇÃO ENTRE DUAS VARIÁVEIS
A
avaliação quantitativa do ajuste das variáveis a equação de
uma curva se faz por um número, entre -1 e 1, denominado coeficiente de correlação. Este
coeficiente indica o grau em que as duas variáveis se
ajustam segundo uma equação matemática.
Definição: Sejam x e y duas variáveis pesquisadas e y =
f(x) a equação ajustada ao conjunto de valores obtidos para
x e y. Define-se o coeficiente de correlação R entre as duas
variáveis por:
 |
 |
|
Onde: –
-
denomina-se variação esperada;
–
denomina-se variação total;
- são os valores de y calculados a partir da relação matemática
determinada para as duas variáveis, e
- é a média dos
valores tabelados para y.
A expressão acima, pode também ser escrita na forma:
R2 = (variação
esperada)/(variação total). |
 |
Os
valores de R pertencem sempre ao intervalo [-1, 1]. Se R = 1
ou R = -1 as variáveis apresentam uma correlação perfeita. À
medida que R se aproxima de 0 por valores menores ou maiores
que zero, as variáveis não apresentam correlação.
Entretanto, é bom não confundir correlação com dependência.
Duas grandezas podem ter um ótimo grau de correlação
(próximo de –1 ou de + 1) e não apresentar nenhuma
dependência. Neste caso, a equação de regressão não tem
nenhuma validade.
Tomando, por exemplo, as variáveis X = eleitores que
escolheram um candidato A e Y = eleitores fumantes
selecionados em uma mesma amostra. A tabela amostral pode
apresentar um alto grau de correlação, mas, provavelmente,
as duas variáveis não apresentam nenhuma relação de
dependência. |
|
7.3 – COEFICIENTE DE CORRELAÇÃO LINEAR
A
definição do coeficiente de correlação apresentada no
item anterior pode ser usada para qualquer curva de
regressão. Entretanto, no seu uso, é necessário
determinar a equação dessa curva antes de calcular o
coeficiente.
No caso específico de uma regressão linear, outras
fórmulas podem ser usadas. Entre elas destacamos a
fórmula de Pearson, que é dada por
|
 |
|
|
 |
|
Onde n é o número de
pares de observações.
Os limites de R
são –1 e +1, ou seja –1 < R < 1, R
pertence ao intervalo [-1, +1].
Se:
R = +1, a correlação linear entre X e Y é perfeita positiva
R = -1, a correlação linear entre X e Y é perfeita
negativa.
R = 0, não existe correlação linear entre X e Y.
Geralmente se estabelece uma classificação para a intensidade da
correlação linear, ou seja, qual é a qualidade do ajuste dos dados à
reta de regressão.
A classificação é assim constituída:
0 < | R | < 0,3, correlação muito fraca, provavelmente a relação
matemática se afasta dos dados .
0,3 < | R | < 0,6 correlação relativamente fraca.
0,6 < | R | < 1 dados fortemente correlacionados.
A tabela a
seguir mostra os dados coletados para as variáveis x e y bem como os
elementos necessários para o cálculo do coeficiente de correlação
linear. |
 |
O valor do
coeficiente de correlação linear é r = 0,999452. Como r > 0
e 0,6 < r < 1, as variáveis x e y são fortemente
correlacionadas. Ou seja, a reta de regressão linear, terá
declividade positiva e apresentará um bom ajuste ao conjunto
de pontos da tabela.
O coeficiente de correlação linear
pode ser calculado facilmente no EXCEL e no BrOffice.
Para o EXCEL, após digitar a tabela,
(1)
clique em uma célula fora da área da tabela.
Nesta célula digite =PEARSON( .
(2) A seguir posicione o mouse sobre o primeiro valor de x
e, mantendo o botão do mouse pressionado, arraste o ponteiro
até o último valor de x.
Na célula deverá ser exibido =PEARSON(C1:C5 onde C1 é a célula contendo o
primeiro valor de x e C5 a célula contendo o último valor de
x. Observe que C1 e C5 devem variar de acordo com a
localização dos valores de x. |

 |
|
|
(3)
Digite à frente da fórmula o
sinal de ponto e vírgula (;).
(4)
Selecione os valores de y conforme feito para selecionar os valores
de x.
(5) Complete a fórmula com o sinal que fecha parênteses.
A
célula deverá então exibir: =PEARSON(C1:C5;D1:D5) dependendo das
células usadas na tabela.
(6)
Pressione o botão
ENTER. Na célula será exibido então o valor do coeficiente de
correlação.
O processo usado no BrOffice é semelhante.
Basta substituir o comando PEARSON pelo comando CORREL.
|
|