Hoofdstuk 9; Dataordening

Het ordenen van onderzoeksgegevens

9.1 Classificatieprincipes

Classificatie is een proces dat bestaat uit twee activiteiten; opstellen van categorieën voor de variabelen en het toewijzen van onderzoekselementen aan deze onderscheiden categorieën.

Stap 1: het onderverdelen van de variabele in onderscheiden waarden (jong/oud).

Stap 2: Classificatie is het sorteren van onderzoekselementen met overeenkomstige kenmerken (opdelen in jong/oud). Een deugdelijke indeling van categorieënreeks bevat de volgende classificatieprincipes:

- De categorieënreeks moet uitputtend zijn.

Ieder onderzoekselement moet plaatsbaar zijn in de categorieënreeks. Een restcategorie is vaak geboden

- Categorieën moeten elkaar wederzijds uitsluiten.

Voor elke waarneming moet precies 1 categorie zijn.

- Een eenduidig indelingsgezichtspunt en handhaaf deze.

In 1 categorieënreeks 1 variabele

- De categorieën zo omschrijven dat zij zinnig onderscheid aanbrengen in de waarden van de variabele (bv niet tien categorieën van mee eens naar mee oneens).

Een categorieënreeks moet theoretisch relevant en empirisch zinnig zijn.

Als het mogelijk is kun je beter achteraf de waarden in categorieën onderverdelen. Belangrijk bij categorieen is de interne homogeniteit (waarden in categorie dicht bij elkaar) en externe isolering (waarden van verschillende catergorieen niet gelijkend). Een neutrale middencategorie is vaak aan te bevelen.

Het proces van classificatie kan op drie manieren tot stand komen:

- Er is een indicator en een operationele definitie die een variabele oplevert. (leeftijd?)

- Er is een indicator die verschillende variabelen oplevert. (in welke gemeente woont u?)

- Aantal indicatoren en definities die tezamen een variabele opleveren.

9.2 Het ordenen van kwalitatieve data

twee manieren om kwalitatieve data te ordenen, namelijk op indeling van het materiaal naar aandachtspunten, of door het vullen van een datamatrix. Vroeger ging het sorteren door middel van knippen, plakken en later de kaartenbak. Tegenwoordig kan men met computers ook trefwoorden en combinaties daarvan automatisch aan teksten toekennen. Ook ondersteuning van een meer gerichte theorievorming en cijfermatige matrices zijn nieuwe opties.

Trefwoorden worden in teksten aangebracht om de gezichtspunten (variabelen) te ontwikkelen, waarmee naar het materiaal kan worden gekeken. Een datamatrix verschilt hier op twee punten van:

- Bij opstellen matrix expliciet gericht op uitspraken over duidelijk gedefinieerde onderzoekselementen

- Indikken van het materiaal via het toekennen van codes

9.3 Codering en datamatrix

Bij gesloten vragen in een survey-onderzoek wordt het coderen als het ware uitbesteed aan de respondent. Bij open vragen in een survey-onderzoek en in een kwalitatief onderzoek zullen de categorieën zelf expliciet en theoretisch zinvol moeten worden ingedeeld. Eerst moet er geclassificeerd worden en dan gecodeerd (toekennen van symbolen aan variabelen en hun categorieën). Coderen is een stap tussen dataverzameling en de data-analyse en is noodzakelijk voor:

- Snelheid en efficiëntie van de data-analyse worden vergroot

- Op efficiënte wijze gebruik maken van statistische analysetechnieken

Een overzicht van alle symbolen met hun variabelen wordt een codeboek genoemd. Consistentie van de gebruikte symbolen en variabelen is belangrijk. Ieder onderzoekselement (respondent) heeft een uniek identificatienummer (respondentnummer) ter vergemakkeling bij invoering en controle.

Alle data-invoer programma’s hebben met elkaar gemeen dat ze geschikt zijn om voor een groot aantal onderzoekselementen de namen van variabelen en cijfercodes op te slaan en mogelijkheden om invoerfouten te verkleinen. Er is controle door het tweemaal invoeren van de gegevens of inspectie op voorkomen van onmogelijke of onwaarschijnlijke combinaties van variabelen.

De data-invoer resulteert in een datamatrix. Dit is een grote tabel waarin de rijen de onderzoekselementen voorstellen en de kolommen de variabelen. Deze gegevens worden opgeslagen als datafile en kan vervolgens worden geanalyseerd met programmatuur voor statistische analyse (SPSS).

9.4 Databestanden en dataverwerking

Twee stappen voor de analyse:

- Aan de variabelen en codes worden labels toegevoegd om zodat alle vragen en antwoordcategorieen in het programma verwerkt zijn

- De ontbrekende gegevens (geen antwoord, geen mening etc) worden expliciet gedefinieerd als ontbrekende waarden en worden buiten de data analyse gehouden.

9.5 Datareductie en hercodering

Een onderzoeker heeft waarnemingen verricht die noodzakelijk zijn om de begrippen uit het conceptueel model te meten voor elk van de onderzoekselementen. De analyse van de verzamelde gegevens begint dan ook met datareductie; verschillende indicatoren voor hetzelfde begrip samenvoegen tot één meetinstrument voor dit begrip (datareductie d.m.v. schaaltechnieken). Variabelen worden samengevoegd wanneer deze een geldige en betrouwbare waardebepaling van een samengestelde variabele oplevert.

Datareductie is ook mogelijk via een door de onderzoeker op inhoudelijke gronden ontwikkeld classificatieschema, waarin onderzoekselementen een plaats krijgen op grond van hun specifieke combinatie van scores op een aantal variabelen (theoretische overwegingen vooraf).

Hercoderingen zijn het hergroeperen van de bij de data-invoer onderscheiden categorieën (de categorieën worden ingeperkt). Redenen voor hercodering:

- Inhoudelijk; de veelheid aan categorieën terugbrengen tot bruikbare categorieën.

- Voorkomen van lege categorieën

Alle hercoderingen moeten theoretisch-inhoudelijk verdedigbaar zijn

Datareductie en hercodering vormen de fase in de data-analyse die voorafgaat aan de toetsing van het door de onderzoeker opgestelde conceptueel model