H1: Enkele begrippen.
·
Beschrijvende statistiek (ordenen, reduceren,
presenteren).
-
Centrummaten: middelpunt van de reeks gegevens (rekenkundig
gemiddelde).
-
Spreidingsmaten: verdeling/spreiding van een reeks gegevens
(standaarddeviatie).
-
Associatiematen: indicatie van een verband tussen twee reeksen
(correlatiecoëfficiënt).
·
Inductieve statistiek.
Op grond van een steekproef trachtten we uitspraken te doen over de
populatie. Zijn de steekproefgegevens geldig voor de populatie? Wordt berekend
dmv. statistische toetsen; welke toets hangt af van het te onderzoeken
verschijnsel, de meetschaal en de gewenste uitkomsten.
-
Cases: welke eenheden
worden onderzocht?
-
Variabelen: de verzamelde
gegevens.
-
Waarden: Scores van de
eenheden op een bepaalde variabele.
·
Datamatrix.
·
Nominale meetschaal.
-
kwalitatieve gegevens.
-
Allesomvattende categorieën.
-
Wederzijds uitsluitend.
-
Geen rangschikking.
-
Geen meeteenheid.
-
Geen nulpunt.
·
Ordinale meetschaal.
-
Categorieën in een zinvolle rangorde.
-
Kunnen niet vergelijken.
-
Geen berekeningen.
-
Geen meeteenheid.
-
Geen nulpunt.
·
Interval meetschaal.
-
Wel meeteenheid, waardoor de verschillen tussen de waarden vastliggen.
-
Maar de verhoudingen tussen de waarnemingen liggen niet vast, er is
geen nulpunt.
-
Alle berekeningen, behalve verhoudingen tussen schaalposities (delen).
·
Ratiomeetschaal.
-
Absoluut nulpunt.
-
Wel rangschikking.
-
Wel meeteenheid.
·
Dichotome variabele.
Nominale variabele met twee categorieën (wel/niet).
·
Discrete/continue
variabelen.
-
Staafdiagram: discrete
variabele, een beperkt aantal waarden/alleen hele getallen.
-
Histogram/Frequentiepolygoon: continue
variabele, alle mogelijke waarden.
H2: Frequentieverdelingen.
-
Staafdiagram.
-
Histogram.
-
Frequentiepolygoon.
-
Cumulatieve
frequentiepolygoon/somfrequentiepolygoon/ogief.
NB: Titel + Bron.
·
Klassenmidden: middelste waarde van
de klasse.
-
Som van beide (exacte) klassengrenzen gedeeld door twee.
·
Klassenbreedte: de exacte breedte
van het interval.
-
Exacte bovengrens minus de exacte ondergrens.
-
Histogram bij ongelijke
klassenbreedten.
Op de verticale as wordt niet de absolute frequentie afgezet maar de
frequentiedichtheid (f/klassenbreedte).
Maakt het vergelijken tussen klassen van verschillende breedte
mogelijk.
-
Frequentiepolygoon bij
ongelijke klassenbreedten.
Alle overige
klassen worden in gelijke ‘repen’ verdeeld, met de breedte van de kleinste
klasse.
-
Cumulatieve
frequentiepolygoon.
Verbindt de bovengrenzen van de klassen. Geeft een indruk van de
verdeling van de variabele. Bij een normale verdeling heeft de cumulatieve
frequentiepolygoon een S-vorm.
H3: Statistische maten.
q
Centrummaten.
·
Rekenkundig gemiddelde (X).
Interval/ratio.
·
Mediaan (Md).
Middelste
waarde van de verdeling (50% punt). Gegevens moeten op volgorde van grootte
staan.
Min. ordinaal.
·
Modus (Mo).
De modus
is de waarde met de hoogste frequentie.
Modale
klasse=klasse met hoogste frequentie.
Modus=klassenmidden
van de modale klasse.
Een verdeling met twee modi wordt een
bimodale verdeling genoemd.
alle meetschalen.
q
Spreidingsmaten.
·
Variatiebreedte.
De hoogste minus de laagste waarde.
min. ordinaal.
·
Interkwartielafstand (IQR).
De waarde
van het 75% punt (Q3) minus de waarde van het 25% punt (Q1).
De IQR geeft de breedte van de 50 % middelste
waarnemingen weer.
Ook te gebruiken voor decielen en
percentielen.
Min. ordinaal.
·
De variantie (s2).
De som van de gekwadrateerde afwijkingen van
alle waarnemingen t.o.v. het rekenkundig gemiddelde.
Interval/ratio.
·
De standaarddeviatie (s).
Is uitgedrukt in dezelfde eenh. als de
oorspronkelijke waarnemingen.
Interval/ratio.
Gebaseerd op rekenkundig gemiddelde, dus niet
geschikt om verdelingen met verschillende gemiddelden te vergelijken. Hiervoor
wordt de variatiecoefficient gebruikt.
·
De variatiecoefficient (CV).
Relatieve
spreiding t.o.v. het rekenkundig gemiddelde, hiermee kunnen de spreidingen van
verschillende verdelingen worden vergelijken.
q
Scheefheidsmaten.
·
Skewness (sk) of scheefheid.
Geeft een
indruk van de vorm van de verdeling.
Sk>0 = positief scheve of rechts
asymmetrische verdeling.
Mo
<Md < X
Sk<0 = negatief scheve of links
asymmetrische verdeling.
Mo
> Md > X
Sk=0 = symmetrische verdeling.
Mo
= Md = X
H4: De normale verdeling.
-
Ook wel bekend als de kromme van Gauss.
-
Symmetrisch en klokvormig.
-
Oppervlakte onder de curve is 100%.
-
Curve raakt de horizontale as nooit.
Met de formule van Gauss kunnen we de opp. tussen elk paar willekeurige
waarden (Xi) berekenen. Deze opp. is gelijk aan de kans op een waarde uit dat
interval (f/n*100%).
-
Totale opp. onder de curve is gelijk aan een kans van 1 (100%).
-
Binnen de afstand van een standaarddeviatie van het gem. bevindt zich
68,26% van alle waarnemingen.
-
Binnen een afstand van 2s van het gem. bevindt zich 95,45% van alle
waarnemingen.
·
De gestandaardiseerde normale verdeling wordt de standaard normale verdeling of
Z-verdeling genoemd.
-
De standaard normale
verdeling heeft een X van 0 en een s van 1.
-
Eenheden op de x-as zijn de Z-scores;
links neg./rechts pos.
-
Z-scores zijn dimensieloos en uitgedrukt in eenheden standaarddeviatie.
Tabel A geeft de oppervlakten (kansen) weer die horen bij de Z-scores
van de standaard normale verdeling. Deze oppervlakten zijn steeds berekend
t.o.v. het midden (Z=0). De negatieve Z-scores zijn uiteraard hetzelfde als die
van de positieve Z-scores.
H5: Binomiale verdeling en
inleiding inductieve statistiek.
·
Een steekproef moet aselect
en enkelvoudig zijn.
Onderscheid tussen populatieparameters
(liggen vast/zijn meestal onbekend) en steekproefgrootheden
(verschillen per steekproef/zijn wel bekend).
Een binomiale verdeling is een kansverdeling van een dichotome variabele.
·
Binomiale kansen P(X).
De kans dat we met n keer gooien X keer kop gooien, noemen we P(X) en
is de kans op één combinatie*het aantal mogelijke combinaties.
·
Formele toetsingsprocedure
in 5 stappen.
1.
Vooronderstellingen.
Nulhypothese (Ho)
2.
Steekproevenverdeling.
Een theoretische kansverdeling van alle
mogelijke steekproefuitkomsten.
3.
Het significantieniveau en afbakenen van het kritieke gebied.
4.
Berekenen toetsingsgrootheid.
De waarde van de steekproefuitkomst.
5.
Conclusie.
Wordt de
Ho wel of niet verworpen.
·
Je loopt altijd een kans om de H0 ten onrechte te verwerpen = a-fout of fout van de
eerste soort. Omgekeerd loop je ook de kans
om de H0 ten onrechte niet te
verwerpen = b-fout of fout van de tweede soort. Kans op een fout
van de tweede soort is helaas niet te berekenen. Beide soorten fouten zijn
complementair.
H6: Statistische toetsen.
De steekproevenverdeling van
het gemiddelde.
-
Standaarddeviatie
van de populatiegemiddelde is de standaardfout.
Hoe groter de steekproefomvang, hoe kleiner
de standaardfout.
Theoretisch kunnen we drie verdelingen onderscheiden:
1.
De populatie.
2.
Een oneindig aantal steekproeven (in werkelijkheid maar 1 waarvan de
vorm niet belangrijk is).
3.
De steekproevenverdeling (NB: alle cases in de verdeling zijn
gemiddelden).
q
Z-toets op het
populatiegemiddelde, s bekend.
Mbv. de Z-toets kunnen we onderzoeken of een populatiegemiddelde m
gelijk
is aan de hypothetische waarde. We proberen een uitspraak te doen over de
waarde van het populatiegemiddelde. We kunnen s schatten met de s
van de steekproef.
-
interval/ratio meetschaal.
We kunnen het steekproefgemiddelde gebruiken om m te schatten.
Hiervoor wordt een gebied afgebakend waarbinnen het populatiegemiddelde met een
bepaald % betrouwbaarheid zal liggen = betrouwbaarheidsinterval.
q
T-toets op het
populatiegemiddelde, s niet bekend.
Interval/ratio meetschaal.
Als de standaarddeviatie van de populatie s niet bekend is, wordt de standaardfout van de
steekproevenverdeling geschat aan de hand van de standaarddeviatie van de
steekproef s. Deze t-toets wordt over het algemeen gebruikt bij de kleinere
steekproeven.
Als onbekend is of
de variabele normaal verdeeld is, moet de steekproefomvang zijn n > 30.
·
Vrijheidsgraden: Het aantal degrees of freedom geeft aan op hoeveel
onafhankelijke getallen een parameterschatting is gebaseerd, ofwel hoeveel
getallen in de berekening vrij van elkaar kunnen variëren.
Naarmate het
aantal vrijheidsgraden (lees:de steekproefomvang) kleiner is, is de verdeling
meer afgeplat. Bij kleinere steekproeven is de spreiding immers groter. Bij een
t-verdeling zitten er dus relatief meer waarnemingen aan de uiteinden dan bij
een Z-verdeling. Naarmate de df toeneemt, nemen de kritieke waarden af.
Als df = 30 t/m 120 gebruiken we kritieke waarde
t = + 2,00.
Bij df > 120 de
waarden van Z: t = + 1,96.
Hoe kleiner de steekproefomvang, hoe groter de standaardfout en hoer
ruimer het geschatte interval.
q
Z-toets op de
populatiefractie.
Als we te maken hebben met een dichotome variabele kan een Z-toets
worden uitgevoerd om te onderzoeken of de populatiefractie gelijk is aan een
bepaalde hypothetische waarde.
Ps: steekproeffractie.
Pu: populatiefractie.
·
Één- en tweezijdige toetsen.
Indien je
theoretische redenen hebt om te verwachten dat de toetsingsgrootheid positief
of negatief zal afwijken van de nulhypothese, kun je een eenzijdige toets
uitvoeren. Het gehele kritieke gebied wordt dan aan één zijde van de verdeling
gelegd.
H7: Kruistabellen.
-
voor een nominale of ordinale variabele.
-
titel + bron.
-
Pas op de celvullingen.
-
Onafhankelijke variabele in de kolommen, de afhankelijke variabele in
de rijen.
-
Meestal absolute en relatieve frequenties.
-
Rij- en kolomtotalen worden de marginale waarden genoemd en geven de
frequentieverdelingen van de beide afzonderlijke variabelen weer.
q
De Chi-kwadraat toets.
Mbv. de Chi-kwadraat toets kan worden nagegaan of er een statistisch
significant verband bestaat tussen twee nominale (of categorale ordinale)
variabelen in een kruistabel.
Indien de waargenomen en de verwachte celfrequenties in iedere cel
hetzelfde zijn, berust de verdeling blijkbaar op toeval en zijn de
indelingscriteria van de variabelen dus onafhankelijk van elkaar. Bestaat er
wel een verschil tussen waargenomen en verwachte celfrequenties dan berusten de
waargenomen frequenties niet op toeval en is er wel sprake van een statistisch
verband. Met de Chi-kwadraat toets worden de waargenomen en verwachte
celfrequenties dus met elkaar vergeleken, hiervoor worden de gekwadrateerde
verschillen gebruikt.
Voorwaarden Chi-kwadraat toets.
Celvulling moet voldoende zijn:
-
Voor alle verwachte celfrequenties in de kruistabel moet gelden:
Eij 1.
-
Max. 20% van de verwachte celfrequenties mogen zijn: 1 Eij
5.
Er mogen geen percentages worden gebruikt.
Deze toets is alleen geschikt of er überhaupt een verband bestaat tussen
twee nominale of ordinale variabelen.
Deze associatiematen geven de sterkte van het statistisch verband weer,
maar zeggen niets over de richting.
q
Phi.
De maximale waarde van f is alleen gelijk aan 1 als
één variabele dichotoom is. f is dus allen bruikbaar bij
kruistabellen met 2 rijen en/of kolommen.
q
Cramer’s V.
Er geldt altijd: 0 V 1.
Cramer’s V is daarom de meest geschikte associatiemaat.
Interpretatie Cramer’s V:
V=0 geen samenhang.
V=0,25 zwak verband.
V=0,5 matig sterk verband.
V=0,75 sterk verband.
V=1 volledige samenhang.
q
Pearson’s contingency
coefficient C.
De bovengrens
is afhankelijk van het aantal rijen en kolommen van de kruistabel.
Daarom C/Cmax, vervolgens kan men deze net als Cramer interpreteren.
Bij een tabel met 2 rijen en/of kolommen is Cmax = 0,707.
Bovendien geldt: 0,707 Cmax
< 1.
q
Chi-kwadraat goodness-of-fit
toets.
De Chi-kwadraat
toets kan ook gebruikt worden om een waargenomen frequentieverdeling te
vergelijken met een theoretisch (verwachte) verdeling, bv. met een normale of
een uniforme.
Een uniforme of gelijke verdeling is een verdeling met evenveel
waarnemingen in elke klasse (gelijke frequenties).
H8: Correlatie en regressie.
-
Regressie: de aard van het
verband (verhouding tussen beide variabelen), en de richting van het verband.
-
Correlatie: de sterkte van het
verband, en de richting van het verband.
Voorwaarden
regressie:
-
interval/ratio.
-
Er moet sprake zijn van een onafhankelijke en een afhankelijke
variabele.
-
Verband tussen beide variabelen moet lineair zijn, daarom maken we van te voren een spreidingsdiagram.
-
Voorwaarden 1 en 3 gelden ook bij de correlatie.
·
Regressielijn.
Met
regressie-analyse zoeken we de rechte lijn die zo goed mogelijk past door de
punten van het spreidingsdiagram.
Y = a + bX bij
populatiegegevens.
Y = a + bX bij
steekproefgegevens.
a = intercept; snijpunt van de lijn met de Y-as.
b = regressiecoefficient; tangens van de hellingshoek.
Er geldt:
b > 0 de lijn stijgt/een positief verband.
(X neemt toe, Y neemt
toe & X neemt af, Y neemt af).
b < 0 de lijn daalt/een negatief verband.
(X neemt toe, Y neemt
af & X neemt af, Y neemt toe).
b = 0 de lijn loopt evenwijdig aan de X-as en er is geen
lineair verband.
(verandering X, geen
invloed op Y).
Principe regressie-analyse:
Er zullen meer waarnemingen rond het gemiddelde liggen en minder
extreme waarnemingen bestaan. Zodoende komt de regressielijn aardig bij een
normaleverdeling in de buurt.
De Y-waarde hoeft dus niet op de berekende lijn te liggen. Er is sprake
van een unieke meetfout of error-term/residu. Meetfouten hebben
altijd betrekking op de Y-waarde; nooit op de X. Ze geven immers het verschil
aan tussen de voorspelde Y-waarde van de lijn, en de waargenomen Y-waarde die
bij X hoort. De meetfouten moeten random zijn en onafhankelijk van X.
·
Correlatie.
Er geldt: -1 r
+1
-
r = -1
alle punten op een rechte lijn/sprake van een
perfect negatief verband (b is ook negatief).
-
r = 0
alle punten willekeurig; schot hagel/geen
correlatie; geen lineair verband (b is ook 0).
-
r = +1
alle punten op een rechte lijn/sprake van een
perfect positief verband (b is ook positief).
Er bestaat dus een relatie tussen b en r.
Een sterk verband wil dus zeggen dat de punten relatief dicht bij de
lijn liggen. De correlatiecoëfficiënt is dus een maat voor afwijkingen van de
punten tov. de lijn.
·
Determinatiecoefficient.
Het kwadraat
van r is te interpreteren als het percentage van de variantie in Y dat
statistisch wordt verklaard door de variantie in X.
Totale variantie = verklaarde + onverklaarde variantie.
Interpretatie:
Altijd tussen 0 r2 1, en geeft het aandeel variantie aan, dat door de regressie van
Y op X statistisch wordt verklaard. Hoeveel % van Y wordt er verklaard door X?
·
Bij toetsing van correlatie en regressie uitkomsten op de populatie
gebruiken we de F-verdeling.
·
Slotopmerkingen.
1.
Voorspellingen aan de hand van de regressielijn mogen allen binnen de
range/het bereik van de lijn worden gedaan.
2.
Correlatie toont geen causaliteit aan.
3.
Correlatie en regressie zijn gevoelig voor uitschieters. Hou extreme
waarden liever weg.
4.
Gebied als isotrope vlakte/variabelen homogeen over het gebied
verdeeld.
5.
Ruimtelijke schaalniveau.
6.
Ecological fallacy.
7.
Residuen-analyse.
8.
Lineariteit (evt.logaritmen).
9.
Outliers of uitschieters.
q
Spearman’s rangcorrelatiecoefficient
rs.
Een maat voor
de correlatie tussen rangscores.
Er geldt:
-1 rs +1
bij rs = -1 of +1 is er sprake van een perfect verband
tussen de rangordes.
bij rs = 0 is er geen verband.
Om de rangcorrelatie tussen twee variabelen te berekenen wordt het
verschil tussen beide reeksen rangscores berekend en gekwadrateerd. De
kwadraten worden opgeteld en ingevuld in de formule. Kan lineair
geinterpreteerd worden.