Hoofdstuk 7 Steekproeven

Voor de generalisatie van de uitkomsten van een onderzoek naar de doelgroep of de steekproef, is de kwaliteit van de steekproef bepalend. Is de steekproef een adequate afspiegeling van de populatie? Om een extreem voorbeeld te geven: als een steekproef bestaat uit meisjes in de groep 8 van het basisonderwijs, dan kunnen de resultaten niet goed gegeneraliseerd worden naar de populatie van alle basisschoolleerlingen, want deze steekproef vormt geen goede afspiegeling van de populatie basisschoolleerlingen (die immers bestaat uit jongens en meisjes van alle groepen).

Afhankelijk van de methode die de onderzoekers gebruiken om de proefpersonen te selecteren, kunnen er vele soorten steekproeven onderscheiden worden. In dit hoofdstuk maken we een grove indeling in: (1) gelegenheidssteekproeven, (2) systematisch getrokken steekproeven, en (3) aselect of willekeurig (‘at random’) getrokken steekproeven. Voor een verdere verdieping in de wijze waarop steekproeven getrokken kunnen worden en de problemen die daarbij een rol spelen verwijzen we naar standaardwerken hierover (Cochran 1977; S. K. Thompson 2012).

7.1 Gelegenheidssteekproeven

In veel sociaalwetenschappelijk onderzoek wordt gewerkt met steekproeven die zich nu eenmaal aandienen, zogenaamde gelegenheidssteekproeven. De onderzoeker voert het experiment uit met personen die hem min of meer toevallig ter beschikking staan. Voor sommige onderzoeken wordt gebruik gemaakt van al dan niet betaalde vrijwilligers. In andere onderzoeken worden studenten ingezet, die in het kader van hun studie verplicht zijn een aantal uren als proefpersoon aan onderzoek mee te werken, of soms moeten de studenten van een collega van de onderzoeker deelnemen aan het onderzoek. Een dergelijke steekproef is niet zonder gevaren. De onderzoeker heeft de mate van generaliseerbaarheid naar de populatie op geen enkele manier meer in de hand. Natuurlijk heeft de onderzoeker wel een populatie op het oog, en zal hij proefpersonen uit het onderzoek weren die geen deel uit maken van de beoogde populatie (zoals niet-moedertaal-sprekers), maar de onderzoeker kan geen uitspraken doen over de representativiteit van de steekproef.

Met name in de psychologie heeft deze wijze van gelegenheidssteekproeftrekking (‘convenience sampling’) aanleiding gegeven tot verhitte discussies. Uit een telling bleek bijvoorbeeld dat 67% van de steekproeven uit gepubliceerde Amerikaanse psychologische studies uitsluitend bestond uit bachelor-studenten uit cursussen Psychologie aan Amerikaanse universiteiten (Henrich, Heine, and Norenzayan 2010). Dergelijke steekproeven zijn natuurlijk verre van representatief. Gevolg daarvan is dat de op deze gegevens gebaseerde theorieën slechts een beperkte geldigheid hebben: de theorieën zouden vooral gelden voor het type personen (westers, jong, hoog opgeleid, blank) dat ook in de steekproeven sterk vertegenwoordigd is (Henrich, Heine, and Norenzayan 2010). Ook in taalwetenschappelijk onderzoek is de steekproef van proefpersonen meestal een gelegenheidssteekproef. Kinderen die deelnemen als proefpersoon hebben vaak hoogopgeleide ouders (niet zelden zelf taalkundig geschoold, dus vermoedelijk bovengemiddeld verbaal begaafd), en volwassen proefpersonen zijn vaak studenten uit de omgeving van de onderzoekers, en dus ook bovengemiddeld hoog opgeleid en verbaal begaafd.

Ondanks de steekhoudende bezwaren die tegen dit type steekproef naar voren gebracht worden, dwingen de praktische omstandigheden vaak tot het gebruik van een zich aandienende gelegenheidssteekproef. Wij bevelen dan aan om na te gaan in hoeverre deze gelegenheidssteekproef zich onderscheidt van de populatie waarover de onderzoeker wil generaliseren. Tot slot van deze bespreking van zich aandienende steekproeven een voorbeeld over de gevaren van dit type steekproef.

Voorbeeld 7.1: Enige tijd geleden was er op televisie een wedstrijd te zien over wie van een negental kandidaten het beste kon zingen. De kijkers mochten hun voorkeur telefonisch kenbaar maken. Voor alle negen kandidaten was een aparte telefoonlijn geopend. Voor elke beller kreeg een kandidaat één punt. Degene die de meeste punten binnen een bepaalde tijdlimiet verzameld had was de winnaar. De reactie van het publiek was overweldigend: in grote delen van Nederland was het telefoonnet volledig overbezet. Al snel bleek één van de kandidaten een flinke voorsprong te hebben. In de loop van de avond werd deze voorsprong echter steeds kleiner. Uiteindelijk scheelde het nog maar enkele bellers met nummer twee. Opvallend was overigens dat naarmate de avond vorderde de verschillen tussen de deelnemers (relatief) steeds kleiner werden.

We kunnen deze stemprocedure beschouwen als een trekking van een steekproef van bellers c.q. stemmers. Deze steekproef is echter verre van representatief. Als veel kiezers willen stemmen op één kandidaat, dan zal de telefoonlijn voor die kandidaat overbezet raken. Dus: de zangers die veel bellers trekken, zullen relatief minder stemmen krijgen dan zangers die weinig bellers trekken, omdat de telefoonlijnen van de laatsten niet overbezet zullen zijn. Juist bij de populairste kandidaten is de kans het grootst dat een kiezer zijn stem niet kan laten gelden. In werkelijkheid zal er dus een veel groter verschil zijn in aantal stemmen per kandidaat, dan de organisator gemeten heeft. De organisator heeft deze systematische vertekening (bias) van de resultaten helaas zelf veroorzaakt, door voor elk van de negen kandidaten een eigen telefoonlijn te openen. De gegevens hadden veel representatiever kunnen zijn, als de organisator negen telefoonlijnen had geopend, met één gemeenschappelijk toegangsnummer. De steekproef van bellers die hun stem kunnen uitbrengen is dan representatief voor de populatie van alle bellers, en dat was nu niet het geval.

7.2 Systematische steekproeven

Wanneer de elementen in de steekproefruimte (d.i. de verzameling van mogelijke elementen in een steekproef) op de een of andere manier systematisch geordend zijn, dan kan met behulp van een systematische trekkingsprocedure van steekproefelementen een redelijk representatieve steekproef verkregen worden. Een ordening kan zijn bijvoorbeeld een namenlijst.

Voorbeeld 7.2:Laten we even aannemen dat we een onderzoek willen doen naar de taalvaardigheid van derdeklassers in het voortgezet onderwijs. De gehele populatie van derdeklassers is echter veel te groot om van alle derdeklassers de taalvaardigheid te meten (lezen, schrijven, spreken, en luisteren). In de derde klas zitten namelijk ongeveer 200.000 leerlingen. Er moet dus een steekproef genomen worden. Op het Ministerie van Onderwijs, Cultuur en Wetenschappen is een registratiesysteem beschikbaar waarin een lijst met de namen van alle scholen met derde klassen is opgenomen. Een voor de hand liggende werkwijze is nu deze lijst te nemen en elke 100ste school van die lijst in de steekproef op te nemen. Deze werkwijze resulteert vermoedelijk in een tamelijk representatieve steekproef.

Twee factoren kunnen echter roet in het eten gooien bij zo’n systematische steekproef: ten eerste de responsiegraad. Als een aanzienlijk deel van de aangeschreven scholen geen medewerking verleent, dan hebben we in feite te maken met zelf-selectie (zie §5.4 punt 5) en dus met een zichzelf aandienende gelegenheidssteekproef (zie §7.1). Dat is een ongewenste situatie, want de scholen die wel meewerken hebben vermoedelijk een grotere ‘plichtsgetrouwheid’ dan de weigerende scholen of dan de gemiddelde school. Bovendien kunnen de leerlingen op de responderende en niet-responderende scholen van elkaar verschillen (zie §5.4 punt 5). De uiteindelijke steekproef is dan misschien niet meer representatief voor de populatie van alle derdeklassers. Het gevolg daarvan is weer dat de gemeten resultaten slecht generaliseerbaar zijn naar andere derdeklassers van andere scholen.

De tweede factor die de representativiteit van een systematische steekproef kan beïnvloeden is de storende trendwerking. Er is sprake van een storende trendwerking wanneer populatie-elementen met een bepaald relevant kenmerk meer kans hebben in de steekproef terecht te komen dan populatie-elementen die dit kenmerk niet hebben. In ons voorbeeld van de meting van de taalvaardigheid van derdeklassers hebben we met de storende trendwerking te maken. Niet alle leerlingen hebben namelijk een gelijke kans om in de steekproef te komen. Immers, elke individuele school (niet: leerling) heeft dezelfde kans als elke andere school om in de steekproef terecht te komen. Het gevolg is dat er relatief meer derdeklassers in de steekproef zullen komen van kleine scholen met relatief weinig leerlingen, en omgekeerd relatief minder derdeklassers van grote scholen met relatief veel leerlingen. Derdeklassers van grote scholen zijn ondervertegenwoordigd. Is dat erg? Misschien wel, want de taalvaardigheid (afhankelijke variabele) wordt deels beïnvoed door de vorm van onderwijs, en die onderwijsvorm wordt weer beïnvloed door de grootte van de school. De hierboven beschreven steekproef is dus niet representatief voor de populatie van derdeklassers. Wederom is het gevolg dat de gemeten resultaten slecht generaliseerbaar zijn naar andere derdeklassers van andere scholen.

7.3 Aselecte steekproeven

De hierboven beschreven storende trendwerking kunnen we voorkomen door random of aselecte steekproeftrekking. Aselecte steekproeftrekking kan op diverse manieren gebeuren, waarvan we er hier drie bespreken.

De eerste vorm is simple random sampling: hierbij krijgen alle elementen van de populatie een gelijke kans om getrokken te worden. Dit kan bijvoorbeeld gerealiseerd worden door alle elementen van een random nummer te voorzien en dan, afhankelijk van de gewenste steekproefgrootte, steeds het \(n\)-de element te selecteren. Voor de selectie van getallen staan de onderzoeker tabellen met toevalsgetallen ter beschikking (zie Appendix A). Ook rekenmachines, computers, spreadsheet-programma’s e.d. kunnen random getallen genereren (zie secties hieronder). Het verdient aanbeveling om zulke random getallen te gebruiken, want een door mensen geconstrueerde “random” volgorde is niet werkelijk “random”. Een voorwaarde voor de toepassing van deze methode is echter wel dat de elementen van de populatie (steekproefruimte) vooraf geregistreerd zijn (of worden), zodat ze op enigerlei wijze van een nummer voorzien kunnen worden.

Voorbeeld 7.3: We willen een steekproef trekken van \(n=400\) basisscholen. Dit is ongeveer 4% van de populatie van basisscholen. We vragen daarom bij het Ministerie van Onderwijs, Cultuur en Wetenschappen een lijst met alle 9000 basisscholen op; deze lijst vormt de steekproefruimte. Vervolgens voorzien we alle basisscholen van een volgnummer \((1, 2, 3, \ldots, 9000)\). Tenslotte selecteren we alle basisscholen waarvan de laatste twee cijfers toevallig 36 of 43 of 59 of 70 zijn (zie Appendix A, eerste kolom, laatste twee cijfers). Met deze procedure selecteren we volgens het toeval 4 van de 100 mogelijke laatste-twee-cijfer-combinaties, ofwel 4% van de scholen.

De tweede vorm van aselecte steekproeftrekking is stratified random sampling. Daarvan is sprake als we van elk populatie-element de waarde van een kenmerk weten (bv. religieuze denominatie), en als we zorgen dat in de steekproef de elementen evenredig verdeeld zijn volgens dit kenmerk. We verdelen de steekproef daarvoor in zogenaamde ‘strata’ of lagen (Lat. stratum, ‘bedekking, laag’, verwant aan Ned. straat, ‘verharde weg’). Terug naar de basisschool om het een en ander te verhelderen. Om welke reden dan ook zijn we er nu in geïnteresseerd de steekproef (nog steeds 4% van de populatie van basisscholen) zo te maken dat openbare, katholieke en protestante scholen in gelijke mate vertegenwoordigd zijn. We stellen daarom drie lijsten op: voor alle drie de schooltype een aparte lijst. Binnen iedere lijst gaan we net zo te werk als bij simple random sampling. Uiteindelijk worden de drie deel-steekproeven van de drie strata gecombineerd.

Met quota sampling gaan we nog een stapje verder dan bij ‘stratified random sampling’: we verdisconteren nu ook het feit dat we weten wat de verdeling is van een bepaald kenmerk (bv denominatie) in de populatie. Uit de lijst met basisscholen zou hebben kunnen blijken dat 35% van de scholen openbaar is, 31% katholiek, 31% protestant en dat 3% een andere signatuur heeft. We trekken uit de steekproefruimte nu meerdere aselecte ‘stratified’ steekproeven, en wel zo dat de verhouding van scholen in de strata een juiste afspiegeling vormt van de verhoudingen van dit kenmerk in de steekproefruimte \((35:31:31:3)\).

7.3.1 SPSS

Voor het aanmaken van een kolom met random getallen:

Transform > Compute...

Selecteer een bestaande variabele (sleep naar Variable(s) paneel) of geef de naam voor een nieuwe variabele. Uit het paneel “Function Group”, kies “Random Numbers” en daarna RV.UNIFORM. Deze functie kiest aselect (random) waarden (values) uit een vlakke (uniforme) kansverdeling, d.w.z. dat elk getal tussen de ondergrens en bovengrens een gelijke kans heeft om getrokken te worden. Kies als ondergrens 0 en als bovengrens 9999, of andere grenzen naar behoefte. Bevestig met OK.
Dit resulteert in een (nieuwe, of overschreven bestaande) kolom met random getallen.

Als je random getallen wilt genereren volgens een normale kansverdeling (zie Hoofdstuk 10), gebruik dan de functie RV.NORMAL(mean,stdev).

We kunnen een eigen beginwaarde meegeven aan de “random number generator”, om zo reproduceerbare analyses te kunnen maken:

Transform > Random Number Generators...

Vink in het paneel “Active Generator Initialization” de optie Set Starting Point aan, en vul een eigen beginwaarde in, bijvoorbeeld je lievelingsgetal. Bevestig met OK.

Je kunt deze random getallen gebruiken om op aselecte wijze eenheden (bijv. proefpersonen) te kiezen voor een steekproef, maar uiteraard ook om op aselecte wijze de geselecteerde eenheden toe te wijzen aan condities, enzovoort.

7.3.2 JASP

In JASP kan een kolom met random getallen worden aangemaakt door eerst een nieuwe variabele (kolom) aan te maken en deze daarna te vullen met random getallen.

Het aanmaken van een nieuwe variabele gaat door in het tabblad met data op de +-button te klikken rechts van de naam van de laatste kolom. Er verschijnt een paneel “Create Computed Column”, waar je een naam voor de nieuwe variabele kunt invullen. Ook kun je kiezen uit R en een aanwijshandje. Dit zijn de twee opties in JASP om formules te definiëren waarmee de nieuwe (lege) variabele wordt gevuld; met R code of handmatig. Hieronder wordt voor allebei de opties uitgelegd hoe er random getallen mee kunnen worden gegenereerd. Als laatste kun je aanvinken welk meetniveau de variabele moet krijgen. Voor random getallen kan dit op Scale blijven staan. Klik vervolgens op Create Column om de nieuwe variabele aan te maken. De nieuwe variabele (kolom) verschijnt als meest rechtse in de data en is nog leeg.

Als R is aangeklikt als optie om de nieuwe variabele te definiëren, verschijnt er boven de data een veld met “#Enter your R code here :)”. Hier kan R code worden gegeven die met behulp van R functies random getallen genereert. Vul de R code in en klik onderaan het veld op Compute column om de lege variabele te vullen met de gegenereerde getallen.
De functie runif(n, min, max) kan worden gebruikt om aselect (random) waarden uit een vlakke (uniforme) kansverdeling te genereren, d.w.z. dat elk getal tussen de ondergrens en bovengrens een gelijke kans heeft om getrokken te worden. De standaard grenzen zijn \((0,1)\). De waarden kunnen worden afgerond tot gehele getallen door de functie round() te gebruiken. De volgende code geeft bijvoorbeeld 5 gehele getallen tussen 0 en 9999:

round( runif(5, 0, 9999) )

Als je random getallen wilt genereren volgens een normale kansverdeling (zie Hoofdstuk 10), gebruik dan de functie rnorm(n,mean,sd). De set.seed functie uit R, om een eigen beginwaarde te geven aan de “random number generator” en zo reproduceerbare analyses te kunnen maken, doet het hier niet in JASP. Met dezelfde code zullen er dus telkens andere random getallen worden gegenereerd.

Als het aanwijshandje is aangeklikt als optie om de nieuwe variabele te definiëren, verschijnt er boven de data een werkblad. Links daarvan staan de variabelen, erboven wiskundige symbolen, en rechts van het werkblad staan een aantal functies. Hieruit kan handmatig de functie worden geselecteerd om random getallen te genereren. Als er iets fout gaat kun je iets van het werkblad verwijderen door het naar de prullenbak rechtsonderin te slepen. Als de specificatie op het werkblad klaar is, klik dan onder het werkblad op Compute column om de lege variabele te vullen met de gegenereerde getallen.
Om aselect getallen uit een vlakke (uniforme) kansverdeling te genereren, d.w.z. dat elk getal tussen de ondergrens en bovengrens een gelijke kans heeft om getrokken te worden, scroll je rechts van het werkblad bij de functies naar beneden en klik op unifDist(). De functie verschijnt dan in het werkblad en hier kunnen “min” en “max” worden vervangen door de gewenste ondergrens en bovengrens (bijvoorbeeld 0 en 9999). De gegenereerde getallen kunnen ook worden afgerond tot gehele getallen, door rechts van het werkblad de functie round(y) aan te klikken, en de unifDist() functie met ingevulde “min” en “max” op de plek van “y” in te vullen, en als “n” het aantal getallen achter de komma, dus in dit geval 0, in te vullen. Op het werkblad staat dan round(unifDist(0,9999),0) als instructie.
Als je random getallen wilt genereren volgens een normale kansverdeling (zie Hoofdstuk 10), kies rechts van het werkblad dan de functie normalDist en vul de gewenste “mean” en “sd” in. Het is niet mogelijk een eigen beginwaarde te geven om zo reproduceerbare analyses te kunnen maken. Met dezelfde gespecificeerde functies, en ook elke keer als er opnieuw op Compute column wordt geklikt, zullen er dus andere random getallen worden gegenereerd.

7.3.3 R

In R kunnen we random getallen genereren met de functie runif. Deze functie kiest aselect (random) waarden uit een vlakke (uniforme) kansverdeling, d.w.z. dat elk getal tussen de ondergrens en bovengrens een gelijke kans heeft om getrokken te worden. De standaard grenzen zijn \((0,1)\). De waarden kunnen we afronden tot gehele getallen, zoals gedaan is voor Appendix A.

Als je random getallen wilt genereren volgens een normale kansverdeling (zie Hoofdstuk 10), gebruik dan de functie rnorm(n,mean,sd).

Met de opdracht set.seed geven we een eigen beginwaarde mee aan de “random number generator”, om zo reproduceerbare analyses (en demonstraties) te kunnen maken.

set.seed(20200912) # reproduceerbaar voorbeeld (bijv datum als getal)
round ( runif( n=5, min=0, max=9999 ) )

## [1] 8193 7482 4206 1684 5653

7.4 Steekproefgrootte

Als je verschillende onderzoeksartikelen leest, dan is één van de eerste zaken die opvalt de enorme variatie in aantallen respondenten. In sommige onderzoeken worden enkele duizenden proefpersonen betrokken en in andere slechts enkele tientallen of soms nog minder. We zullen hier twee aspecten bespreken die van invloed zijn op de vereiste grootte van de steekproef: de homogeniteit van de populatie, en de aard van de steekproeftrekking. In volgende hoofdstukken zullen we nog twee andere aspecten bespreken die eveneens van invloed zijn op de gewenste steekproefgrootte, nl. de gewenste precisie (effectgrootte, §13.8) en de gewenste kans om een effect aan te tonen als dat in de populatie ook daadwerkelijk aanwezig is (power, §14.2).

Voorbeeld 7.4: Wanneer auto’s getest worden (in een tijdschrift of op televisie), dan wordt van een type auto slechts één exemplaar getest. De resultaten van dit testexemplaar worden zonder voorbehoud gegeneraliseerd naar alle auto’s van hetzelfde type en merk. Dit is mogelijk omdat de populatie auto’s waarnaar gegeneraliseerd wordt bijzonder homogeen is: de fabrikant streeft er immers naar om de verschillende exemplaren zo gelijk mogelijk op de markt te brengen.

De vereiste steekproefgrootte hangt ten eerste af van de homogeniteit van de populatie. Als een populatie homogeen is, zoals de auto’s in voorbeeld 7.4 hierboven, dan kunnen we met een kleine steekproef volstaan. Anders is het wanneer we bijvoorbeeld de conversatiepatronen van kleuters willen analyseren. In de conversatiepatronen van kleuters treffen we grote verschillen aan; er is een zeer grote variatie in conversatiepatronen. (Sommige kinderen praten voluit, en andere zwijgen vooral. Bovendien zijn er grote individuele verschillen in taalontwikkeling tussen kinderen.) Om een goed beeld te krijgen van de taalontwikkeling van kleuters, hebben we daarom een veel grotere steekproef nodig. De grootte van de benodigde steekproef neemt dus toe naarmate de populatie waarna gegeneraliseerd moet worden minder homogeen (heterogener) is.

Ten tweede hangt de vereiste steekproefgrootte ook af van de aard van de steekproef. Als er in een populatie duidelijke strata aanwezig zijn, maar we passen – om welke reden dan ook – geen ‘stratified’ of ‘quota sampling’ toe, dan hebben we een grotere steekproef nodig dan wanneer we dit wel zouden doen. Immers, bij deze laatste twee methoden zorgt de onderzoeker zelf voor een gelijke dan wel evenredige vertegenwoordiging van strata in de steekproef, maar bij ‘simple random sampling’ wordt dat aan het toeval overgelaten. We doen dan dus een beroep op de “wet van de grote getallen” om te zorgen dat er voldoende elementen uit de verschillende strata in de steekproef terecht komen, om generalisatie van de resultaten naar die verschillende strata te rechtvaardigen. Uiteraard werkt die wet alleen bij een voldoende grote steekproef! Bij een kleine steekproef weten we allerminst zeker dat de verschillende strata in voldoende mate in de steekproef vertegenwoordigd zijn.

Als we, om naar het basisschool-voorbeeld terug te keren, drie basisscholen zouden selecteren volgens ‘simple random sampling’, dan bestaat natuurlijk een kans dat dit precies één openbare, één katholieke en één protestante school oplevert in deze steekproef. Maar ook andere uitkomsten zijn zeer reëel, en zelfs meer waarschijnlijk. Bij ‘stratified’ en ‘quota sampling’ hebben we gegarandeerd van elke denominatie één element (school) in onze steekproef. Onze basis voor generalisatie is beter, en de externe validiteit is dus sterker.

Na al deze behartenswaardige aanbevelingen wordt het tijd om te bespreken hoe we onderzoeksgegevens goed kunnen beschrijven en analyseren om onze onderzoeksvragen te beantwoorden. Dat gebeurt in het volgende deel van dit boek.

Referenties

Cochran, W. G. 1977. Sampling Techniques. 3e ed. New York: Wiley.

Henrich, Joseph, Steven J. Heine, and Ara Norenzayan. 2010. “The Weirdest People in the World?” Behavioral and Brain Sciences 33 (2-3): 61–83.

Thompson, Steven K. 2012. Sampling. 3e ed. Wiley Series in Probability and Statistics. Hoboken, NJ: John Wiley.