H1: Enkele begrippen.

· Beschrijvende statistiek (ordenen, reduceren, presenteren).

- Centrummaten: middelpunt van de reeks gegevens (rekenkundig gemiddelde).

- Spreidingsmaten: verdeling/spreiding van een reeks gegevens (standaarddeviatie).

- Associatiematen: indicatie van een verband tussen twee reeksen (correlatiecoëfficiënt).

· Inductieve statistiek.

Op grond van een steekproef trachtten we uitspraken te doen over de populatie. Zijn de steekproefgegevens geldig voor de populatie? Wordt berekend dmv. statistische toetsen; welke toets hangt af van het te onderzoeken verschijnsel, de meetschaal en de gewenste uitkomsten.

- Cases: welke eenheden worden onderzocht?

- Variabelen: de verzamelde gegevens.

- Waarden: Scores van de eenheden op een bepaalde variabele.

· Datamatrix.

· Nominale meetschaal.

- kwalitatieve gegevens.

- Allesomvattende categorieën.

- Wederzijds uitsluitend.

- Geen rangschikking.

- Geen meeteenheid.

- Geen nulpunt.

· Ordinale meetschaal.

- Categorieën in een zinvolle rangorde.

- Kunnen niet vergelijken.

- Geen berekeningen.

- Geen meeteenheid.

- Geen nulpunt.

· Interval meetschaal.

- Wel meeteenheid, waardoor de verschillen tussen de waarden vastliggen.

- Maar de verhoudingen tussen de waarnemingen liggen niet vast, er is geen nulpunt.

- Alle berekeningen, behalve verhoudingen tussen schaalposities (delen).

· Ratiomeetschaal.

- Absoluut nulpunt.

- Wel rangschikking.

- Wel meeteenheid.

· Dichotome variabele.

Nominale variabele met twee categorieën (wel/niet).

· Discrete/continue variabelen.

- Staafdiagram: discrete variabele, een beperkt aantal waarden/alleen hele getallen.

- Histogram/Frequentiepolygoon: continue variabele, alle mogelijke waarden.

H2: Frequentieverdelingen.

- Staafdiagram.

- Histogram.

- Frequentiepolygoon.

- Cumulatieve frequentiepolygoon/somfrequentiepolygoon/ogief.

NB: Titel + Bron.

· Klassenmidden: middelste waarde van de klasse.

- Som van beide (exacte) klassengrenzen gedeeld door twee.

· Klassenbreedte: de exacte breedte van het interval.

- Exacte bovengrens minus de exacte ondergrens.

- Histogram bij ongelijke klassenbreedten.

Op de verticale as wordt niet de absolute frequentie afgezet maar de frequentiedichtheid (f/klassenbreedte).

Maakt het vergelijken tussen klassen van verschillende breedte mogelijk.

- Frequentiepolygoon bij ongelijke klassenbreedten.

Alle overige klassen worden in gelijke ‘repen’ verdeeld, met de breedte van de kleinste klasse.

- Cumulatieve frequentiepolygoon.

Verbindt de bovengrenzen van de klassen. Geeft een indruk van de verdeling van de variabele. Bij een normale verdeling heeft de cumulatieve frequentiepolygoon een S-vorm.

H3: Statistische maten.

q Centrummaten.

· Rekenkundig gemiddelde (X).

Interval/ratio.

· Mediaan (Md).

Middelste waarde van de verdeling (50% punt). Gegevens moeten op volgorde van grootte staan.

Min. ordinaal.

· Modus (Mo).

De modus is de waarde met de hoogste frequentie.

Modale klasse=klasse met hoogste frequentie.

Modus=klassenmidden van de modale klasse.

Een verdeling met twee modi wordt een bimodale verdeling genoemd.

alle meetschalen.

q Spreidingsmaten.

· Variatiebreedte.

De hoogste minus de laagste waarde.

min. ordinaal.

· Interkwartielafstand (IQR).

De waarde van het 75% punt (Q3) minus de waarde van het 25% punt (Q1).

De IQR geeft de breedte van de 50 % middelste waarnemingen weer.

Ook te gebruiken voor decielen en percentielen.

Min. ordinaal.

· De variantie (s²).

De som van de gekwadrateerde afwijkingen van alle waarnemingen t.o.v. het rekenkundig gemiddelde.

Interval/ratio.

· De standaarddeviatie (s).

Is uitgedrukt in dezelfde eenh. als de oorspronkelijke waarnemingen.

Interval/ratio.

Gebaseerd op rekenkundig gemiddelde, dus niet geschikt om verdelingen met verschillende gemiddelden te vergelijken. Hiervoor wordt de variatiecoefficient gebruikt.

· De variatiecoefficient (CV).

Relatieve spreiding t.o.v. het rekenkundig gemiddelde, hiermee kunnen de spreidingen van verschillende verdelingen worden vergelijken.

q Scheefheidsmaten.

· Skewness (sk) of scheefheid.

Geeft een indruk van de vorm van de verdeling.

Sk>0 = positief scheve of rechts asymmetrische verdeling.

Mo <Md < X

Sk<0 = negatief scheve of links asymmetrische verdeling.

Mo > Md > X

Sk=0 = symmetrische verdeling.

Mo = Md = X

H4: De normale verdeling.

- Ook wel bekend als de kromme van Gauss.

- Symmetrisch en klokvormig.

- Oppervlakte onder de curve is 100%.

- Curve raakt de horizontale as nooit.

Met de formule van Gauss kunnen we de opp. tussen elk paar willekeurige waarden (Xi) berekenen. Deze opp. is gelijk aan de kans op een waarde uit dat interval (f/n*100%).

- Totale opp. onder de curve is gelijk aan een kans van 1 (100%).

- Binnen de afstand van een standaarddeviatie van het gem. bevindt zich 68,26% van alle waarnemingen.

- Binnen een afstand van 2s van het gem. bevindt zich 95,45% van alle waarnemingen.

· De gestandaardiseerde normale verdeling wordt de standaard normale verdeling of Z-verdeling genoemd.

- De standaard normale verdeling heeft een X van 0 en een s van 1.

- Eenheden op de x-as zijn de Z-scores; links neg./rechts pos.

- Z-scores zijn dimensieloos en uitgedrukt in eenheden standaarddeviatie.

Tabel A geeft de oppervlakten (kansen) weer die horen bij de Z-scores van de standaard normale verdeling. Deze oppervlakten zijn steeds berekend t.o.v. het midden (Z=0). De negatieve Z-scores zijn uiteraard hetzelfde als die van de positieve Z-scores.

H5: Binomiale verdeling en inleiding inductieve statistiek.

· Een steekproef moet aselect en enkelvoudig zijn.

Onderscheid tussen populatieparameters (liggen vast/zijn meestal onbekend) en steekproefgrootheden (verschillen per steekproef/zijn wel bekend).

Een binomiale verdeling is een kansverdeling van een dichotome variabele.

· Binomiale kansen P(X).

De kans dat we met n keer gooien X keer kop gooien, noemen we P(X) en is de kans op één combinatie*het aantal mogelijke combinaties.

· Formele toetsingsprocedure in 5 stappen.

1. Vooronderstellingen.

Nulhypothese (Ho)

2. Steekproevenverdeling.

Een theoretische kansverdeling van alle mogelijke steekproefuitkomsten.

3. Het significantieniveau en afbakenen van het kritieke gebied.

4. Berekenen toetsingsgrootheid.

De waarde van de steekproefuitkomst.

5. Conclusie.

Wordt de Ho wel of niet verworpen.

· Je loopt altijd een kans om de H0 ten onrechte te verwerpen = a-fout of fout van de eerste soort. Omgekeerd loop je ook de kans om de H0 ten onrechte niet te verwerpen = b-fout of fout van de tweede soort. Kans op een fout van de tweede soort is helaas niet te berekenen. Beide soorten fouten zijn complementair.

H6: Statistische toetsen.

De steekproevenverdeling van het gemiddelde.

Met een Z-toets/t-toets wordt aan de hand van een steekproefgemiddelde een H0 over het populatiegemiddelde getoetst. De hierbij gebruikte kansverdeling is de steekproevenverdeling van het gemiddelde: een kansverdeling van alle mogelijke steekproefgemiddelden.

- Centrale limiet stelling: n > 30 – steekproevenverdeling is normaal verdeeld.

- Standaarddeviatie van de populatiegemiddelde is de standaardfout.

Hoe groter de steekproefomvang, hoe kleiner de standaardfout.

Theoretisch kunnen we drie verdelingen onderscheiden:

1. De populatie.

2. Een oneindig aantal steekproeven (in werkelijkheid maar 1 waarvan de vorm niet belangrijk is).

3. De steekproevenverdeling (NB: alle cases in de verdeling zijn gemiddelden).

q Z-toets op het populatiegemiddelde, s bekend.

Mbv. de Z-toets kunnen we onderzoeken of een populatiegemiddelde m gelijk is aan de hypothetische waarde. We proberen een uitspraak te doen over de waarde van het populatiegemiddelde. We kunnen s schatten met de s van de steekproef.

- interval/ratio meetschaal.

We kunnen het steekproefgemiddelde gebruiken om m te schatten. Hiervoor wordt een gebied afgebakend waarbinnen het populatiegemiddelde met een bepaald % betrouwbaarheid zal liggen = betrouwbaarheidsinterval.

q T-toets op het populatiegemiddelde, s niet bekend.

Interval/ratio meetschaal.

Als de standaarddeviatie van de populatie s niet bekend is, wordt de standaardfout van de steekproevenverdeling geschat aan de hand van de standaarddeviatie van de steekproef s. Deze t-toets wordt over het algemeen gebruikt bij de kleinere steekproeven.

Als onbekend is of de variabele normaal verdeeld is, moet de steekproefomvang zijn n > 30.

· Vrijheidsgraden: Het aantal degrees of freedom geeft aan op hoeveel onafhankelijke getallen een parameterschatting is gebaseerd, ofwel hoeveel getallen in de berekening vrij van elkaar kunnen variëren.

Naarmate het aantal vrijheidsgraden (lees:de steekproefomvang) kleiner is, is de verdeling meer afgeplat. Bij kleinere steekproeven is de spreiding immers groter. Bij een t-verdeling zitten er dus relatief meer waarnemingen aan de uiteinden dan bij een Z-verdeling. Naarmate de df toeneemt, nemen de kritieke waarden af.

Als df = 30 t/m 120 gebruiken we kritieke waarde t = + 2,00.

Bij df > 120 de waarden van Z: t = + 1,96.

Hoe kleiner de steekproefomvang, hoe groter de standaardfout en hoer ruimer het geschatte interval.

q Z-toets op de populatiefractie.

Als we te maken hebben met een dichotome variabele kan een Z-toets worden uitgevoerd om te onderzoeken of de populatiefractie gelijk is aan een bepaalde hypothetische waarde.

Ps: steekproeffractie.

Pu: populatiefractie.

· Één- en tweezijdige toetsen.

Indien je theoretische redenen hebt om te verwachten dat de toetsingsgrootheid positief of negatief zal afwijken van de nulhypothese, kun je een eenzijdige toets uitvoeren. Het gehele kritieke gebied wordt dan aan één zijde van de verdeling gelegd.

H7: Kruistabellen.

- voor een nominale of ordinale variabele.

- titel + bron.

- Pas op de celvullingen.

- Onafhankelijke variabele in de kolommen, de afhankelijke variabele in de rijen.

- Meestal absolute en relatieve frequenties.

- Rij- en kolomtotalen worden de marginale waarden genoemd en geven de frequentieverdelingen van de beide afzonderlijke variabelen weer.

q De Chi-kwadraat toets.

Mbv. de Chi-kwadraat toets kan worden nagegaan of er een statistisch significant verband bestaat tussen twee nominale (of categorale ordinale) variabelen in een kruistabel.

Indien de waargenomen en de verwachte celfrequenties in iedere cel hetzelfde zijn, berust de verdeling blijkbaar op toeval en zijn de indelingscriteria van de variabelen dus onafhankelijk van elkaar. Bestaat er wel een verschil tussen waargenomen en verwachte celfrequenties dan berusten de waargenomen frequenties niet op toeval en is er wel sprake van een statistisch verband. Met de Chi-kwadraat toets worden de waargenomen en verwachte celfrequenties dus met elkaar vergeleken, hiervoor worden de gekwadrateerde verschillen gebruikt.

Voorwaarden Chi-kwadraat toets.

Celvulling moet voldoende zijn:

- Voor alle verwachte celfrequenties in de kruistabel moet gelden: Eij 1.

- Max. 20% van de verwachte celfrequenties mogen zijn: 1 Eij 5.

Er mogen geen percentages worden gebruikt.

Deze toets is alleen geschikt of er überhaupt een verband bestaat tussen twee nominale of ordinale variabelen.

Deze associatiematen geven de sterkte van het statistisch verband weer, maar zeggen niets over de richting.

q Phi.

De maximale waarde van f is alleen gelijk aan 1 als één variabele dichotoom is. f is dus allen bruikbaar bij kruistabellen met 2 rijen en/of kolommen.

q Cramer’s V.

Er geldt altijd: 0 V 1.

Cramer’s V is daarom de meest geschikte associatiemaat.

Interpretatie Cramer’s V:

V=0 geen samenhang.

V=0,25 zwak verband.

V=0,5 matig sterk verband.

V=0,75 sterk verband.

V=1 volledige samenhang.

q Pearson’s contingency coefficient C.

De bovengrens is afhankelijk van het aantal rijen en kolommen van de kruistabel.

Daarom C/Cmax, vervolgens kan men deze net als Cramer interpreteren.

Bij een tabel met 2 rijen en/of kolommen is Cmax = 0,707.

Bovendien geldt: 0,707 Cmax < 1.

q Chi-kwadraat goodness-of-fit toets.

De Chi-kwadraat toets kan ook gebruikt worden om een waargenomen frequentieverdeling te vergelijken met een theoretisch (verwachte) verdeling, bv. met een normale of een uniforme.

Een uniforme of gelijke verdeling is een verdeling met evenveel waarnemingen in elke klasse (gelijke frequenties).

H8: Correlatie en regressie.

- Regressie: de aard van het verband (verhouding tussen beide variabelen), en de richting van het verband.

- Correlatie: de sterkte van het verband, en de richting van het verband.

Voorwaarden regressie:

- interval/ratio.

- Er moet sprake zijn van een onafhankelijke en een afhankelijke variabele.

- Verband tussen beide variabelen moet lineair zijn, daarom maken we van te voren een spreidingsdiagram.

- Voorwaarden 1 en 3 gelden ook bij de correlatie.

· Regressielijn.

Met regressie-analyse zoeken we de rechte lijn die zo goed mogelijk past door de punten van het spreidingsdiagram.

Y = a + bX bij populatiegegevens.

Y = a + bX bij steekproefgegevens.

a = intercept; snijpunt van de lijn met de Y-as.

b = regressiecoefficient; tangens van de hellingshoek.

Er geldt:

b > 0 de lijn stijgt/een positief verband.

(X neemt toe, Y neemt toe & X neemt af, Y neemt af).

b < 0 de lijn daalt/een negatief verband.

(X neemt toe, Y neemt af & X neemt af, Y neemt toe).

b = 0 de lijn loopt evenwijdig aan de X-as en er is geen lineair verband.

(verandering X, geen invloed op Y).

Principe regressie-analyse:

Er zullen meer waarnemingen rond het gemiddelde liggen en minder extreme waarnemingen bestaan. Zodoende komt de regressielijn aardig bij een normaleverdeling in de buurt.

De Y-waarde hoeft dus niet op de berekende lijn te liggen. Er is sprake van een unieke meetfout of error-term/residu. Meetfouten hebben altijd betrekking op de Y-waarde; nooit op de X. Ze geven immers het verschil aan tussen de voorspelde Y-waarde van de lijn, en de waargenomen Y-waarde die bij X hoort. De meetfouten moeten random zijn en onafhankelijk van X.

· Correlatie.

Er geldt: -1 r +1

- r = -1

alle punten op een rechte lijn/sprake van een perfect negatief verband (b is ook negatief).

- r = 0

alle punten willekeurig; schot hagel/geen correlatie; geen lineair verband (b is ook 0).

- r = +1

alle punten op een rechte lijn/sprake van een perfect positief verband (b is ook positief).

Er bestaat dus een relatie tussen b en r.

Een sterk verband wil dus zeggen dat de punten relatief dicht bij de lijn liggen. De correlatiecoëfficiënt is dus een maat voor afwijkingen van de punten tov. de lijn.

· Determinatiecoefficient.

Het kwadraat van r is te interpreteren als het percentage van de variantie in Y dat statistisch wordt verklaard door de variantie in X.

Totale variantie = verklaarde + onverklaarde variantie.

Interpretatie:

Altijd tussen 0 r² 1, en geeft het aandeel variantie aan, dat door de regressie van Y op X statistisch wordt verklaard. Hoeveel % van Y wordt er verklaard door X?

· Bij toetsing van correlatie en regressie uitkomsten op de populatie gebruiken we de F-verdeling.

· Slotopmerkingen.

1. Voorspellingen aan de hand van de regressielijn mogen allen binnen de range/het bereik van de lijn worden gedaan.

2. Correlatie toont geen causaliteit aan.

3. Correlatie en regressie zijn gevoelig voor uitschieters. Hou extreme waarden liever weg.

4. Gebied als isotrope vlakte/variabelen homogeen over het gebied verdeeld.

5. Ruimtelijke schaalniveau.

6. Ecological fallacy.

7. Residuen-analyse.

8. Lineariteit (evt.logaritmen).

9. Outliers of uitschieters.

q Spearman’s rangcorrelatiecoefficient r_s.

Een maat voor de correlatie tussen rangscores.

Er geldt:

-1 r_s+1

bij r_s= -1 of +1 is er sprake van een perfect verband tussen de rangordes.

bij r_s = 0 is er geen verband.

Om de rangcorrelatie tussen twee variabelen te berekenen wordt het verschil tussen beide reeksen rangscores berekend en gekwadrateerd. De kwadraten worden opgeteld en ingevuld in de formule. Kan lineair geinterpreteerd worden.