Hoofdstuk 9 Centrum en spreiding
9.1 Inleiding
In het vorige hoofdstuk hebben we geleerd om observaties te tellen en te classificeren. Daarmee kunnen we de observaties van een variabele samenvatten, bijvoorbeeld in een tabel, een frequentieverdeling, of in een histogram. Vaak kunnen we de observaties nog verder samenvatten, in kenmerken die aangeven op welke wijze de observaties verdeeld zijn. In dit hoofdstuk maken we kennis met een aantal van dergelijke kenmerken. Sommige van die kenmerken zijn van toepassing op variabelen van alle meetniveau’s (bv. modus), andere alleen op variabelen van interval- of ratio-niveau (bv. gemiddelde). Na een inleiding over het gebruik van symbolen bespreken we eerst hoe we het centrum van een verdeling kunnen beschrijven, en hoe we de spreiding kunnen beschrijven.
9.2 Symbolen
In de beschrijvende statistiek wordt veel gewerkt met symbolen. Die symbolen zijn verkorte aanduidingen voor een reeks van handelingen. Sommige van die symbolen zijn je reeds bekend: de exponent \({}^2\) in de uitdrukking \(x^2\) is een symbool met de betekenis “vermenigvuldig \(x\) met zichzelf”, ofwel \(x^2 = x \times x\) (waarin ook \(\times\) weer een symbool is).
Vaak wordt een hoofdletter gebruikt om een variabele aan te duiden (\(X\)), en een kleine letter om een afzonderlijke score van die variabele aan te duiden (\(x\)). Als we de afzonderlijke scores willen onderscheiden, dan doen we dat met een subscript index: \(x_1\) is de eerste observatie, \(x_2\) is de tweede observatie, enz. Op deze manier geeft \(x_i\) de \(i\)’de score aan, of de score van proefpersoon nummer \(i\), van variabele \(X\). Als we willen generaliseren over alle scores, dan kunnen we de index weglaten, maar we kunnen ook een punt gebruiken als “lege” index: in de uitdrukking \(x_.\) staat de punt-index voor iedere willekeurige index.
Het aantal observaties in een bepaalde groep geven we aan met kleine letter \(n\), en het totaal aantal observaties van een variabele met de hoofdletter \(N\). Als er maar één groep is, zoals in de voorbeelden in dit hoofdstuk, dan geldt dat \(n=N\).
In de beschrijvende statistiek wordt veel opgeteld, en daarvoor is dan ook een apart symbool, \(\sum\), de griekse hoofdletter Sigma, waarmee een sommering of optelling wordt aangeduid. We zouden kunnen zeggen “tel alle geobserveerde waarden van variabele \(X\) bij elkaar op”, maar dat doen we doorgaans korter: \[\sum\limits_{i=1}^n x_i, \textrm{of korter} \sum x % \Sigma_i^N x_i, \textrm{of nog korter} \Sigma X\] Op deze wijze wordt aangegeven dat alle scores \(x_i\) bij elkaar moeten worden opgeteld (gesommeerd), voor alle waarden van \(i\) (vanaf \(i=1\), tenzij anders aangegeven) tot \(i=n\). Alle \(n\) scores van de variabele \(x\) moeten dus worden opgeteld.
Als er haakjes gebruikt worden, let dan goed op: handelingen beschreven binnen een paar haakjes hebben voorrang, die moet je dus eerst uitvoeren. Ook als dat niet strikt nodig is, zullen we vaak haakjes gebruiken ter verduidelijking, zoals in \((2\times3)+4=10\).
9.3 Centrummaten
9.3.1 gemiddelde
De meest bekende maat voor het centrum van een verdeling is wel het gemiddelde. Het gemiddelde is eenvoudig uit te rekenen door alle scores bij elkaar op te tellen, en vervolgens die som weer te delen door het aantal observaties. In symbolen: \[\begin{equation} \overline{x} = \frac{\sum x}{n} = \frac{1}{n} \sum\limits_{i}^n x_i \tag{9.1} \end{equation}\]
We maken hier meteen kennis met een nieuw symbool, \(\overline{x}\), vaak “x-bar” genoemd, waarmee het gemiddelde van \(x\) wordt aangeduid. Het gemiddelde wordt ook vaak aangeduid met het symbool \(M\) (Eng. mean), o.a. in artikelen in de APA-stijl.
Voorbeeld 9.1: In een winkel wordt bijgehouden hoe lang klanten moeten wachten bij de kassa, voordat ze aan de beurt zijn. Voor \(N=10\) klanten worden de volgende wachttijden geobserveerd, in minuten:
1, 2, 5, 2, 2, 2, 3, 1, 1, 3.
De gemiddelde wachttijd is \((\sum X)/N = 22/10 = 2.2\) minuten.
Het gemiddelde van \(X\) wordt meestal uitgedrukt met één decimaalcijfer meer dan de scores van \(X\) (zie ook §9.6.1 hieronder over het aantal decimaalcijfers waarmee het gemiddelde wordt weergegeven).
Het gemiddelde is op te vatten als het “balanspunt” van een verdeling: de observaties aan weerszijden houden elkaar “in evenwicht”, zoals geïllustreerd in Figuur 9.1, waar de “blokken” van het histogram precies “in evenwicht” zijn op het “balanspunt” bij het gemiddelde van 2.2. Het gemiddelde is ook de waarde ten opzichte waarvan de \(N\) observaties tezamen het minste verschillen, en het vormt dus een goed kenmerk voor het centrum van een kansverdeling.
Het gemiddelde is alleen bruikbaar bij variabelen van het interval- of ratio-meetniveau.
9.3.2 mediaan
De mediaan (symbool \(Md\) of \(\tilde{x}\)) is de observatie in het midden van de rangorde van observaties 10. Als we de scores van \(X\) rangschikken van klein naar groot, dan is de mediaan het middenpunt van die gerangschikte reeks. De helft van de observaties is kleiner dan de mediaan, en de andere helft is groter dan de mediaan.
Bij een oneven aantal observaties is de middelste observatie de mediaan. Bij een even aantal observaties wordt de mediaan gevormd door het gemiddelde van de middelste twee observaties.
Voorbeeld 9.2: De wachttijden uit Voorbeeld 9.1 worden als volgt gerangschikt:
1, 1, 1, 2, 2, 2, 2, 3, 3, 5.
De mediaan is het gemiddelde van de middelste twee (cursieve) observaties, dus 2 minuten.
De mediaan is minder gevoelig dan het gemiddelde voor extreme waarden van \(x\). In het bovenstaande voorbeeld is de extreme wachttijd van 5 minuten van aanzienlijke invloed op het gemiddelde. Als we die waarde zouden verwijderen, dan verandert het gemiddelde van 2.2 naar 1.9, maar de mediaan blijft nog steeds 2. Extreme waarden hebben dus een minder grote invloed op de mediaan dan op het gemiddelde. Pas als de rangschikking van de observaties verandert, kan ook de mediaan veranderen.
De mediaan is bruikbaar bij variabelen van het ordinale, interval- of ratio-meetniveau.
9.3.3 modus
De modus (bijv.nw. ‘modaal’) is de waarde of score van \(X\) die het meeste voorkomt.
Voorbeeld 9.3: Bij de wachttijden uit Voorbeeld 9.1 komt de score 2 het meeste voor (\(4\times\)); dit is de modus.
Voorbeeld 9.4: In 2022 was het gemiddelde besteedbare inkomen per huishouden in Nederland ca €35000. Het modale inkomen (per huishouden) was tussen €22000 en €24000 11: in deze inkomenscategorie vielen de meeste huishoudens.
De modus is nog minder gevoelig dan de mediaan voor extreme waarden van \(x\). In het bovenstaande voorbeeld 9.2 maakt het niet uit wat de waarde van de langste wachttijd is: ook al zou die observatie de waarde \(10\) of \(1000\) hebben, de modus blijft onveranderlijk \(2\) (ga dat zelf na).
De modus is bruikbaar bij variabelen van alle meetniveau’s.
9.3.4 harmonisch gemiddelde
Als de afhankelijke variabele een breuk of verhouding of ratio voorstelt, zoals de snelheid waarmee een taak verricht wordt, dan vormt het (rekenkundig) gemiddelde van formule (9.1) eigenlijk niet een goede aanduiding voor de meest kenmerkende of centrale waarde. In dat geval kan je beter het harmonisch gemiddelde gebruiken:
\[\begin{equation} H = \frac{1}{\frac{1}{n} \sum\limits_{i}^n \frac{1}{x_i} } = \frac{n}{\sum\limits_{i}^n \frac{1}{x_i}} \tag{9.2} \end{equation}\]
Voorbeeld 9.5: Een student schrijft \(n=3\) teksten. Over de eerste tekst (500 woorden) doet hij 2.5 uur, over de tweede tekst (1000 woorden) doet hij 4 uur, en over de derde tekst (300 woorden) doet hij 0.6 uur. Wat is de gemiddelde schrijfsnelheid van deze student? De schrijfsnelheden zijn resp. 200, 250, en 500 woorden per uur, en het “normale” (rekenkundig) gemiddelde daarvan is 317 woorden per uur. Maar, het kostte 7.1 uur om 1800 woorden te schrijven, dus het “eigenlijke” gemiddelde is \((500+1000+300)/(2.5+4+0.6)\) \(=1800/7.1=254\) woorden per uur. De hoge schrijfsnelheid van de korte tekst telt voor \(1/n\) deel mee in het rekenkundig gemiddelde, hoewel die tekst slechts \(300/1800=1/6\) van het totaal aantal woorden bevat.
Omdat de afhankelijke variabele een breuk is (snelheid, woorden/uur), vormt het harmonische gemiddelde hier een betere centrummaat. Eerst rekenen we de snelheid (woorden per tijdseenheid) om naar de inverse daarvan (zie (9.2), in noemer, binnen somteken), d.w.z. naar tijd per woord: 0.005, 0.004, en 0.002 (tijdseenheden per woord, zie voetnoot12). Ten tweede middelen we deze tijden, tot gemiddeld 0.00366 uur per woord (13.2 seconden per woord), en tenslotte nemen we daarvan wederom de inverse. De harmonisch gemiddelde schrijfsnelheid is dan \(1/0.00366=273\) woorden per uur, dichter bij het “eigenlijke” gemiddelde van 254 woorden per uur.
9.3.5 gewinsoriseerde gemiddelde
De grote gevoeligheid van het gewone (rekenkundige) gemiddelde voor uitbijters kan ingeperkt worden, door de meest extreme observaties te wijzigen naar de minder extreme, meer centrale observaties. Het gemiddelde van deze (deels gewijzigde) observaties wordt het gewinsoriseerde gemiddelde genoemd (“winsorized mean”; ).
Voorbeeld 9.6: De wachttijden uit Voorbeeld 9.1 worden als volgt gerangschikt:
1, 1, 1, 2, 2, 2, 2, 3, 3, 5.
Voor het 10% gewinsoriseerde gemiddelde worden (na rangordening) de 10% kleinste observaties gelijk gesteld aan de eerstvolgende grotere waarde, en de 10% grootste observaties worden gelijk gesteld aan de laatst voorafgaande kleinere waarde (gewijzigde waarden zijn hier cursief):
1, 1, 1, 2, 2, 2, 2, 3, 3, 3.
Het winsorized gemiddelde over deze gewijzigde waarden is \(\overline{x}_w=2\) minuten.
9.3.6 getrimde gemiddelde
Een nog drastischer ingreep is om de meest extreme observaties geheel te verwijderen. Het gemiddelde van de overblijvende observaties wordt het getrimde gemiddelde genoemd (“trimmed mean”). Bij een 10% trim verwijderen we de onderste 10% en de bovenste 10% van de observaties; er resteren dan dus nog slechts \((1- (2 \times (10/100))\times n\) observaties (Wilcox 2012).
Voorbeeld 9.7: De wachttijden uit Voorbeeld 9.1 worden weer als volgt gerangschikt:
1, 1, 1, 2, 2, 2, 2, 3, 3, 5.
Voor het 10% getrimde gemiddelde worden (na rangordening) de 10% kleinste observaties verwijderd, en de 10% grootste observaties worden eveneens verwijderd:
1, 1, 2, 2, 2, 2, 3, 3.
Het getrimde gemiddelde over deze \(10-(.2)(10)=8\) resterende waarden is hier \(\overline{x}_t=2\) minuten.
9.3.7 vergelijking van centrummaten
Figuur 9.2 illustreert de verschillen tussen de diverse centrummaten, voor asymmetrisch verdeelde observaties.
Het rekenkundig gemiddelde is het meest gevoelig voor extreme waarden: de extreme waarden “trekken” erg hard aan het gemiddelde. Deze invloed van extreme waarden wordt getemperd in het gewinsoriseerde gemiddelde, en wordt nog meer getemperd in het getrimde gemiddelde. Naarmate de trimfactor (het percentage van de observaties dat wordt gewijzigd of verwijderd) toeneemt, gaan de gewinsoriseerde en getrimde gemiddelden meer lijken op de mediaan. Immers, bij een trimfactor van 50% resteert er van alle observaties nog maar één (ongewijzigde) observatie, en dat is de mediaan (ga dat zelf na). In §9.7 gaan we verder in op de keuze voor een passende maat voor het centrum van een verdeling.
9.4 Kwartielen en boxplots
De verdeling van een variabele wordt niet alleen gekenmerkt door het centrum van die verdeling, maar ook door de mate van spreiding rondom het centrum, d.w.z. hoe groot het verschil is van de observaties t.o.v. het gemiddelde. We willen bijvoorbeeld niet alleen weten wat het gemiddelde inkomen is, maar ook hoe groot de verschillen in inkomen zijn.
9.4.1 Kwartielen
Een eenvoudige en bruikbare maat daarvoor zijn de kwartielen (Tukey 1977). We delen de gerangschikte observaties in twee helften op; de grens daartussen is de mediaan. Vervolgens halveren we weer elke helft, tot kwarten. De kwartielen worden gevormd door de grenzen tussen deze kwarten; er zijn dus drie kwartielen. Het eerste kwartiel \(Q_1\) is de mediaan van de onderste helft, \(Q_2\) is de mediaan van alle \(n\) observaties, en het derde kwartiel \(Q_3\) is de mediaan van de bovenste helft. De helft van de observaties (nl. het tweede en derde kwart) ligt tussen \(Q_1\) en \(Q_3\). De afstand tussen \(Q_1\) en \(Q_3\) wordt de “interquartile range” genoemd (IQR). Deze IQR vormt een eerste bruikbare maat voor de spreiding van observaties ten opzichte van hun centrale waarde.
Voor de uitleg maken we gebruik van de fictieve scores op een leestoets, gegeven in Tabel 9.1.
Leerling | Lezen | Rekenen | Wereldoriëntatie |
---|---|---|---|
1 | 18 | 22 | 55 |
2 | 32 | 36 | 55 |
3 | 45 | 34 | 38 |
4 | 25 | 25 | 40 |
5 | 27 | 29 | 48 |
6 | 23 | 20 | 44 |
7 | 29 | 27 | 49 |
8 | 26 | 25 | 42 |
9 | 20 | 25 | 57 |
10 | 25 | 27 | 47 |
\(\sum x\) | 270 | 270 | 475 |
\(\overline{x}\) | 27.0 | 27.0 | 47.5 |
Voorbeeld 9.8: De scores bij het onderdeel Lezen in Tabel 9.1 zijn als volgt gerangschikt:
18, 20, 23, 25, 25, 26, 27, 29, 32, 45.
De mediaan is \(Q_2=25.5\) (tussen de 5e en 6e observatie in deze ranglijst). De mediaan van de onderste helft is \(Q_1=23\) en die van de bovenste helft is \(Q_3=29\). De interquartile range is \(\textrm{IQR}=29-23=6\).
9.4.2 Uitbijters
In de leesscores in Tabel 9.1 treffen we een extreme waarde aan, nl. de score 45, die opvallend veel verschilt van het gemiddelde. Zo’n opvallende waarde wordt aangeduid als een “uitbijter” (in het Engels als “outlier”). De grens voor wat we beschouwen als een uitbijter ligt doorgaans bij \(1.5 \times \textrm{IQR}\). Als een waarde meer dan \(1.5 \times \textrm{IQR}\) boven \(Q_3\) of onder \(Q_1\) ligt, dan beschouwen we die observatie als een uitbijter. Controleer deze observaties nog eens (denk aan het principe van zorgvuldigheid, zie §3.1).
Voorbeeld 9.9: Voor de eerder genoemde leesscores in Tabel 9.1 vonden we \(Q_1=23\), \(Q_3=29\), en \(\textrm{IQR}=Q_3-Q_1=29-23=6\). De bovenste grenswaarde voor uitbijters is \(Q_3 + 1.5 \times \textrm{IQR} = 29 + 1.5 \times 6 = 29+9 = 38\). De observatie met score 45 ligt boven deze grenswaarde, en wordt daarom beschouwd als uitbijter.
9.4.3 Boxplots
De frequentieverdeling van een variabele kunnen we nu weergeven met vijf kenmerken, de zgn. “five-number summary”, nl. de kleinste waarde, \(Q_1\), mediaan, \(Q_3\), en grootste waarde. Deze vijf kenmerken worden grafisch weergegeven in een zgn. “boxplot”, zie Figuur 9.3 voor een voorbeeld (Tukey 1977, sec. 2C).
## Loading required package: foreign
De box omspant het gebied van (bij benadering) \(Q_1\) tot \(Q_3\), en omspant dus de centrale helft van de observaties. De dikkere lijn in de box markeert de mediaan. De lijnen strekken zich uit naar de kleinste en grootste waarden die géén uitbijters zijn 13. De afzonderlijke uitbijters worden hier met een apart symbool aangeduid.
9.5 Spreidingsmaten
9.5.1 variantie
Een andere manier om de spreiding van de observaties aan te geven, zou zijn om te kijken naar de afwijking van iedere observatie ten opzichte van het gemiddelde, dus \((x_i-\overline{x})\). Maar als we al die afwijkingen optellen, dan is de som daarvan altijd nul! De positieve en negatieve afwijkingen heffen elkaar immers op (ga dat zelf na in Tabel 9.1). Daarom middelen we niet de afwijkingen zelf, maar de kwadraten van die afwijkingen. Zowel de positieve als de negatieve afwijkingen resulteren in positieve gekwadrateerde-afwijkingen. Van al die gekwadrateerde-afwijkingen berekenen we het gemiddelde, d.w.z. we tellen ze op en delen door \((n-1)\), zie voetnoot14. Het resultaat noemen we de variantie, aangeduid met symbool \(s^2\): \[\begin{equation} s^2 = \frac{ \sum (x_i - \overline{x})^2 } {n-1} \tag{9.3} \end{equation}\]
De teller van deze breuk wordt wel aangeduid als de “sum of squared deviations” of “sum of squares” (SS) en de noemer wordt wel aangeduid als het aantal vrijheidsgraden of “degrees of freedom” van de teller (d.f.; zie §13.2.1).
De variantie rekenen we tegenwoordig altijd uit met een rekenmachine of computer.
9.5.2 standaarddeviatie
Om de bovenstaande variantie te berekenen, hebben we de afwijkingen van de observaties gekwadrateerd. De variantie is dus een grootheid die niet wordt uitgedrukt in de oorspronkelijke eenheden (bijv. seconden, cm, score), maar in gekwadrateerde eenheden (bijv. \(\textrm{s}^2\), \(\textrm{cm}^2\), \(\textrm{score}^2\)). Teneinde weer terug te keren naar de oorspronkelijke eenheden, nemen we de wortel uit de variantie. Het resultaat noemen we de standaarddeviatie, aangeduid met symbool \(s\):
\[\begin{equation} s = \sqrt{s^2} = \sqrt{ \frac{ \sum (x_i - \overline{x})^2 } {n-1} } \tag{9.4} \end{equation}\]
Voorbeeld 9.10: Het gemiddelde van de eerder genoemde leesscores in Tabel 9.1 is \(27.0\), en de afwijkingen zijn als volgt:
-9, 5, 18, -2, 0, -4, 2, -1, -7, -2.
De gekwadrateerde afwijkingen zijn 81, 25, 324, 4, 0, 16, 4, 1, 49, 4.
De som van deze gekwadrateerde afwijkingen is 508, en de variantie is dan \(s^2=508/9=56.44\). De standaarddeviatie is de wortel van de variantie, dus \(s=\sqrt{508/9}=7.5\).
De variantie en standaarddeviatie zijn alleen bruikbaar bij variabelen van het interval- of ratio-meetniveau. Ook de variantie en standaarddeviatie kunnen weer gebaseerd zijn op de gewinsoriseerde of getrimde verzameling van observaties.
De standaarddeviatie hebben we nodig (a) als we de ruwe observaties willen omzetten naar standaardscores (zie §9.8 hieronder), (b) als we een variabele willen beschrijven die normaal verdeeld is (zie §10.3, en (c) als we hypotheses willen toetsen met behulp van een normaal verdeelde variabele (zie §13.2 e.v.).
9.5.3 MAD
Behalve de standaarddeviatie is er ook een robuuste tegenhanger daarvan, die niet gebruik maakt van het gemiddelde. Deze maat is daarom minder gevoelig voor uitbijters (robuuster), wat soms handig is.
We kijken hiervoor naar de afwijking van iedere observatie ten opzichte van de mediaan (niet t.o.v. het gemiddelde). Van deze afwijkingen nemen we de absolute waarde15 (niet het kwadraat). Van deze absolute afwijkingen bepalen we tenslotte weer de mediaan (niet het gemiddelde). Het resultaat noemen we de “median absolute deviation” (MAD): \[\begin{equation} \textrm{MAD} = k ~~ Md ( |x_i - Md(x) |) \tag{9.5} \end{equation}\]
Hierbij gebruiken we meestal \(k=1.4826\) als constante; door deze schaalfactor komt de MAD ruwweg overeen met de standaarddeviatie \(s\) indien \(x\) normaal verdeeld zou zijn (§10.3).
Voorbeeld 9.11: De mediaan van de eerder genoemde leesscores in Tabel 9.1 is 25.5, en de afwijkingen van die mediaan zijn als volgt:
-7.5, 6.5, 19.5, -0.5, 1.5, -2.5, 3.5, 0.5, -5.5, -0.5.
De gerangschikte, absolute afwijkingen zijn
0.5, 0.5, 0.5, 1.5, 2.5, 3.5, 5.5, 6.5, 7.5, 19.5.
De mediaan van deze 10 absolute afwijkingen is 3, en \(\textrm{MAD} = 1.4826 \times 3 = 4.4478\). Merk op dat de MAD kleiner is dan de standaarddeviatie, o.a. omdat de MAD minder gevoelig is voor de extreme waarde \(x_3=45\).
9.6 Over significante cijfers
9.6.1 Gemiddelde en standaarddeviatie
Een gemiddelde uitkomst wordt weergegeven in een beperkt aantal significante cijfers, d.i. een beperkt aantal cijfers, van links naar rechts geteld, zonder acht te slaan op het decimaalteken. Het aantal significante cijfers van een gemiddelde uitkomst moet gelijk zijn aan het aantal significante cijfers van het aantal observaties waarover is gemiddeld. (Overige cijfers in de gemiddelde uitkomst zijn niet nauwkeurig bepaald.) De gemiddelde uitkomst moet eerst afgerond worden tot het gepaste aantal significante cijfers, voordat de uitkomst verder geïnterpreteerd wordt, zie Tabel 9.2.
aant.obs. | aant.signif.cijfers | voorbeeld gemiddelde | rapporteer als |
---|---|---|---|
\(1\dots9\) | 1 | 21/8 = 2.625 | 3 |
\(10\dots99\) | 2 | 57/21 = 2.714286 | 2.7 |
\(100\dots999\) | 3 | 317/120 = 2.641667 | 2.64 |
\(1000\dots9999\) | 4 | 3179/1234 = 2.576175 | 2.576 |
Het aantal significante cijfers in de gerapporteerde standaarddeviatie is hetzelfde als in het gemiddelde, volgens Tabel 9.2.
9.6.1.1 Achtergrond
Laten we aannemen dat ik de afstand van mijn huis naar mijn werk langs een vaste route een aantal keren heb gemeten. Het gemiddelde van die metingen bedraagt zogenaamd \(2.954321\) km. Door het gemiddelde te rapporteren met 7 cijfers suggereer ik hier dat ik precies weet dat de afstand \(2954321\) millimeter is, en ten hoogste \(1\) mm meer of minder: het laatste cijfer is geschat of afgerond. Het aantal significante cijfers (in dit voorbeeld 7) geeft de mate van nauwkeurigheid aan. In dit voorbeeld is de gesuggereerde nauwkeurigheid van 1 mm duidelijk onjuist, o.a. omdat beginpunt en eindpunt niet tot op de millimeter bepaald zijn. Het is daarom gebruikelijk om de gemiddelde gemeten afstand te rapporteren met een aantal significante cijfers dat de nauwkeurigheid van die metingen en van het gemiddelde aangeeft, bijv. \(3.0\) km (per auto of fiets) of \(2.95\) km (te voet).
Dezelfde gedachtengang is van toepassing bij de meting van een kenmerk door middel van een enquête-vraag. Met \(n=15\) respondenten zou de gemiddelde score \(43/15 \approx 2.86667\) kunnen zijn. Maar de nauwkeurigheid is in dit voorbeeld niet zo goed als dit decimale getal suggereert. In feite zorgt hier één afwijkend antwoord al voor een afwijking van \(\pm0.06667\) in het gemiddelde. Bovendien is een gemiddelde score altijd het resultaat van een deling, en “(bij) delen en vermenigvuldigen geldt de regel dat de uitkomst evenveel significante cijfers bevat als de meetwaarde met het kleinste aantal significante cijfers.”16 In dit voorbeeld bestaan de teller (\(43\)) en de noemer (\(15\)) van het gemiddelde beide uit 2 significante cijfers, en dient de uitkomst dus ook uit 2 significante cijfers te bestaan. De gemiddelde score dient gerapporteerd te worden als \(2.9\) punten, met slechts één cijfer achter het decimaalteken.
9.6.2 Percentages
Een percentage is een verhouding of breuk, vermenigvuldigd met \(100\). Gebruik en rapporteer een afgerond percentage (d.i. twee significante cijfers) alleen indien de noemer van de verhouding of breuk groter is dan 100. Deze noemer geeft het aantal waarnemingen of gevallen. Als de noemer kleiner is dan 100 (waarnemingen, gevallen), dan zijn percentages misleidend, zie Tabel 9.3.
aant.obs.(noemer) | aant.signif.cijfers | voorbeeld breuk | rapporteer als |
---|---|---|---|
\(1\dots9\) | 1 | 3/8 = 0.4 | 3/8 |
\(10\dots99\) | 2 | 21/57 = 0.36 | 21/57 |
\(100\dots999\) | 3 | 120/317 = 0.378 | 38% |
\(1000\dots9999\) | 4 | 1234/3179 = 0.3882 | 38.8% |
9.6.2.1 Achtergrond
De regels voor percentages vloeien voort uit die in §9.6.1 toegepast op delingen. Als de noemer groter is dan 100 is het percentage (met twee significante cijfers) het gevolg van een schaalverandering “naar beneden” (van een noemer groter dan 100 naar een noemer van precies 100 percentagepunten). De percentageschaal is minder nauwkeurig dan de oorspronkelijke verhouding; de percentages zijn afgerond tot op twee significante cijfers; het laatste significante cijfer van het percentage is dus geborgd.
Als de noemer echter kleiner is dan 100 dan is het percentage (met twee significante cijfers) het gevolg van een “oprekking naar boven” (van een noemer kleiner dan 100 naar een noemer van precies 100 percentagepunten). De percentageschaal suggereert dan een pseudo-nauwkeurigheid die er niet was in de oorspronkelijke verhouding, en de nauwkeurigheid van de percentageschaal is vals. Als de noemer kleiner is dan 100, zijn percentages dus misleidend.
Voorbeeld 9.12: In een cursus van 29 studenten zijn er 23 studenten geslaagd. We spreken dan vaak van een cursusrendement van \(23/29=\) 79%. Toch is zo’n weergave als percentage in dit geval misleidend. Laten we daarvoor eens kijken naar de 6 gezakten. Je kunt beredeneren dat het aantal van 6 gezakten een eigen afrondingsfout heeft van \(1/2\) student; bij omzetting naar de percentageschaal wordt ook deze afrondingsfout mee vergroot, zodat de percentages minder nauwkeurig zijn dan de hele percentages (2 significante cijfers) suggereren. Of anders gezegd: het aantal van 6 gezakten (d.i. een getal met één significant cijfer) noopt ons om ook de verhouding weer te geven met slechts één significant cijfer, en dus niet als percentage. Rapporteer bij voorkeur de verhouding zelf (\(23/29\)), of eventueel de “odds” (\(23/6=4\)) afgerond tot het juiste aantal significante cijfers17.
Op grond van dezelfde overwegingen is een percentage met een decimaal cijfer (d.i. met drie significante cijfers, bv. “36.1%”) alleen zinnig als de noemer van de verhouding of breuk groter is dan 1000.
Voorbeeld 9.13: In 2013 startten 154 studenten met een tweejarige research master. Na 2 jaar waren 69 daarvan afgestudeerd. Het nominaal rendement voor dit cohort is dan \(69/154=\) 0.448052, af te ronden en te rapporteren als 45% (niet als 44.81%).
9.7 Keuzemoment
De verdeling van een variabele kun je op verschillende manieren beschrijven. Als variabele \(X\) gemeten is op het interval- of ratio-meetniveau, begin dan altijd met een histogram (§8.4) en een boxplot (§9.4.3).
De centrummaten en spreidingsmaten zijn te ordenen zoals in Tabel 9.4.
Verdeling | Centrummaat | Spreidingsmaat |
---|---|---|
alle | mediaan | kwartielen, IQR, MAD |
… | getrimde of gewins.gemidd. | getrimde of gewins.std.dev. |
(a & b & c) | gemiddelde | standaarddeviatie |
De meest robuuste maten staan bovenin (mediaan, kwartielen, IQR, MAD). Deze maten zijn robuust: ze zijn weinig gevoelig voor uitbijters of voor eventuele asymmetrie in de frequentieverdeling, zoals de voorbeelden in dit hoofdstuk laten zien.
De meest efficiënte maten staan onderin in Tabel 9.4: gemiddelde en standaarddeviatie. Deze maten zijn efficiënt: ze geven het centrum en de spreiding het beste weer, ze hebben zelf de kleinste standaarddeviatie, en ze hebben daarvoor relatief het kleinste aantal observaties nodig. De andere maten nemen een tussenpositie in: de getrimde maten zijn wat robuuster, en de gewinsoriseerde maten wat efficiënter.
De meest efficiënte maten vereisen echter ook de meest vèrgaande assumpties (en de meest robuuste maten vereisen de minste assumpties). Deze efficiënte maten zijn alleen zinnig, indien de verdeling van \(X\) voldoet aan drie assumpties: (a) de verdeling is min of meer symmetrisch, d.w.z. de linker- en rechter-helft van het histogram resp. de bovenste en onderste helft van de boxplot lijken elkaars spiegelbeeld, (b) de verdeling is unimodaal, d.w.z. de verdeling heeft één modus, en (c) de verdeling bevat geen of nauwelijks uitbijters. Inspecteer deze assumpties in het histogram en de boxplot van \(X\). Als aan één van deze assumpties niet is voldaan, dan doe je er beter aan om meer robuuste maten te gebruiken om de verdeling te beschrijven.
9.8 Standaardscores
Soms kan het handig zijn om scores te vergelijken die gemeten zijn op verschillende schalen. Bijvoorbeeld: Jan had een 8 als eindcijfer voor wiskunde op het VWO, en zijn IQ is 136. Is de afwijking van Jan ten opzichte van het gemiddelde even groot op beide schalen? Om zo’n vraag te beantwoorden moeten we de scores van de twee variabelen uitdrukken op dezelfde meetschaal. Dat doen we door de ruwe scores om te rekenen naar standaard-scores, of z-scores. Hiervoor nemen we de afwijking van iedere score ten opzichte van het gemiddelde, en we delen die afwijking door de standaarddeviatie:
\[\begin{equation} z_i = \frac{(x_i-\overline{x})}{s_x} \tag{9.6} \end{equation}\]
De standaardscore of z-score representeert dus de afstand van de \(i\)’de observatie tot het gemiddelde van \(x\), uitgedrukt in eenheden standaarddeviatie. Bij een standaardscore van \(z=-1\) is de geobserveerde score precies \(1 \times s\) beneden het gemiddelde \(\overline{x}\). Bij een standaardscore van \(z=+2\) dan is de geobserveerde score precies \(2 \times s\) boven het gemiddelde18.
De z-scores zijn ook handig om twee variabelen te vergelijken die weliswaar op dezelfde schaal gemeten zijn (bijvoorbeeld een schaal van \(1 \dots 100\)), maar die toch verschillende gemiddelden en/of verschillende standaarddeviaties hebben, zoals de scores in Tabel 9.1. In Hoofdstuk 10 zullen we verder werken met z-scores.
De standaardscore of z-score heeft twee handige eigenschappen die je moet onthouden. Ten eerste is het gemiddelde altijd gelijk aan nul: \(\overline{z}=0\), en ten tweede is de standaarddeviatie gelijk aan 1: \(s_z = 1\). (Deze eigenschappen volgen uit de definitie in formule (9.6); het wiskundige bewijs laten we hier achterwege.) Dus de transformatie van een verzameling observaties naar standaardscores of z-scores levert altijd een verdeling op met een gemiddelde van nul en een standaarddeviatie van één. Bedenk wel dat deze transformatie naar standaardscores alleen zinnig is, indien en voor zover het gemiddelde en de standaarddeviatie ook zinnige maten zijn om de verdeling van \(x\) te beschrijven (zie §9.7).
9.9 SPSS
Voor histogram, percentielen en boxplot:
Analyze > Descriptive Statistics > Explore...
Selecteer variabele (sleep naar Variable(s) paneel)
Kies Plots
, vink aan: Histogram
, en bevestig met Continue
Kies Options
, vink aan: Percentiles
, en bevestig met Continue
en
daarna met OK
.
De uitvoer bevat zowel beschrijvende statistiek als histogram en
boxplot.
Voor kenmerkende getallen:
Analyze > Descriptive Statistics > Descriptives...
Selecteer variabele (sleep naar Variable(s) paneel)
Kies Options
; vink aan:
Mean, Sum, Std.deviation, Variance, Minimum, Maximum
, en bevestig met
Continue
en daarna met OK
.
De uitvoer bevat de gevraagde statistische kenmerken van de verdeling
van de variabele.
Voor mediaan:
Analyze > Compare Means > Means...
Selecteer variabele (sleep naar Variable(s) paneel)
Kies Options
; vink aan:
Mean, Number of cases, Standard deviation, Variance, Minimum, Maximum
en ook Median
, en bevestig met Continue
en daarna met OK
.
De uitvoer bevat de gevraagde statistische kenmerken van de verdeling
van de variabele.
Standaardscores uitrekenen en bewaren in nieuwe kolom:
Analyze > Descriptive Statistics > Descriptives...
Selecteer variabele (sleep naar Variable(s) paneel)
Vink aan: Save standardized values as variables
en bevestig met OK
.
De nieuwe variabele(n) met z-scores worden toegevoegd als nieuwe
kolom(men) aan het databestand.
9.10 JASP
Voor histogram en boxplot:
Klik in de bovenbalk op Descriptives
. Selecteer vervolgens de gewenste variabele(n) en plaats ze in het veld “Variables”. Klik de balk Plots
open en vink Distribution plots
aan onder “Basic plots” voor een histogram (of staafdiagram, afhankelijk van het meetniveau). Vink Boxplots
(met Boxplot element
) aan onder “Customizable plots” voor een boxplot.
Voor kenmerkende getallen en kwartielen/percentielen:
Klik in de bovenbalk op Descriptives
. Selecteer vervolgens de gewenste variabele(n) en plaats ze in het veld “Variables”. Klik de balk Statistics
open en vink Quartiles
aan onder “Percentile Values” om kwartielen te krijgen. Door Cut points for:
aan te vinken en een getal in te vullen, kun je ook andere fractielen krijgen (bijvoorbeeld sextielen als je 6 invult). Door Percentiles:
aan te vinken en een getal in te vullen, kun je ook een specifiek percentiel krijgen (bijvoorbeeld 44e percentiel als je 44 invult).
Voor kenmerkende getallen, zoals centrummaten en spreidingsmaten, vink je Mean
, Median
, Mode
en Sum
aan onder “Central Tendency”, en Variance
, Std.deviation
, MAD Robust
(bij MAD
is de constante op 1 gezet), IQR
, Minimum
en Maximum
aan onder “Dispersion”.
De uitvoer is een tabel met alle opgevraagde beschrijvende statistiek van de variabele(n).
Standaardscores moeten zelf worden uitgerekend als nieuwe variabele. Maak de nieuwe variabele aan door op de +-button te klikken rechts van de naam van de laatste kolom in de dataset. Er verschijnt een paneel “Create Computed Column”, waar je een naam voor de nieuwe variabele kunt invullen, bijvoorbeeld zLezen
. Ook kun je kiezen uit R
en een aanwijshandje. Dit zijn de twee opties in JASP om formules te definiëren waarmee de nieuwe (lege) variabele wordt gevuld; met R code of met drag-and-drop in JASP. Hieronder wordt voor allebei de opties uitgelegd hoe we hiermee de variabele met standaardscores maken. Als laatste kun je aanvinken welk meetniveau de variabele moet krijgen; dat is in dit geval “Scale”, net als de originele variabele. Klik vervolgens op Create Column
om de nieuwe variabele aan te maken. De nieuwe variabele (kolom) verschijnt als meest rechtse in de data en is nog leeg.
Als computed with R code
is gekozen als optie om de nieuwe variabele te definiëren, dan verschijnt er boven de data een veld met de tekst “Enter your R code here”. Hier kan R code worden ingevoerd die met behulp van R functies de nieuwe variabele definieert. Om een standaardscore te berekenen kan de volgende code worden gebruikt (hier voor de variabele ‘Lezen’):
((Lezen - mean(Lezen)) / sd(Lezen))
Vul de R code in, vul de overige velden ook in, en klik onderaan op Compute column
om de lege variabele te vullen met de standaardscores.
Rekenkundige bewerkingen op de variabelen zijn in JASP alleen mogelijk indien het meetniveau van alle gebruikte variabelen is ingesteld op ‘Scale’.
Als drag-and-drop
(aanwijshandje) is gekozen als optie om de nieuwe variabele te definiëren, dan verschijnt er boven de data een veld met links daarvan de variabelen, boven wiskundige symbolen, en rechts een aantal functies. Hier kan handmatig de functie worden geselecteerd die de nieuwe variabele definieert. Om standaardscores te berekenen sleep je de variabele die je wilt omzetten in het lege veld. Klik dan bovenaan op \(-\) en selecteer daarna uit het rechter menu de functie mean(y)
. Sleep de om te zette variabele naar “values” en klik daarna bovenaan op \(\div\). Selecteer in het rechter menu de functie σy
voor op de puntjes onder het breukteken (als noemer) en sleep ook hier de om te zette variabele naar “values”. Voor de variabele ‘Lezen’ zou dit er zo uitzien in het werkblad: \[\frac{(Lezen-mean(Lezen)}{\sigma Lezen}\]
Vul ook de overige velden in, en klik dan onderaan op Compute column
om de lege variabele te vullen met de standaardscores.
Rekenkundige bewerkingen op de variabelen zijn in JASP alleen mogelijk indien het meetniveau van alle gebruikte variabelen is ingesteld op ‘Scale’.
Als je een fout hebt gemaakt of als je de code of formule voor de nieuwe variabele wilt aanpassen, dan kan je altijd terugkeren naar dit ‘Computed Column’ veld door te klikken op het formule-symbool \(f_x\) naast de variabele-naam, of door te klikken op de variabele-naam zelf.
9.11 R
Voor kwartielen en boxplot zoals Figuur 9.3 gebruiken we de commando’s fivenum
, quantile
, en boxplot
:
require(foreign) # for foreign::read.spss
cito <- read.spss("data/cito.sav")
fivenum(cito$Lezen) # minimum, Q1, mediaan, Q3, maximum
## [1] 19 22 26 29 44
## 25% 75%
## 22.75 28.75
op <- par(mar=c(4,4,1,2)+0.1) # smaller margins
with(cito,
boxplot(Lezen, Rekenen, col="grey80", lwd=2, lty=1, ylab="Score", ylim=c(17,45) )
)
axis(side=1, at=c(1,2), labels=c("Lezen","Rekenen") )
plotrix::axis.break(axis=2) # break in linker Y-as
rug(cito$Lezen, side=2) # markeringen linker Y-as
rug(cito$Rekenen, side=4) # markeringen rechter Y-as
Veel centrummaten zijn als functie in R voorgeprogrammeerd:
## [1] 27.2
## [1] 26.3
## [1] 26.125
## [1] 26
Ook diverse spreidingsmaten zijn voorgeprogrammeerd:
## [1] 50.17778
## [1] 7.083627
## [1] 5.1891
Daarentegen moeten we standaardscores zelf uitrekenen, en zelf bewaren als nieuwe variabele, hier zLezen
genoemd (let op de haakjes in de eerste regel):
zLezen <- (cito$Lezen-mean(cito$Lezen)) / sd(cito$Lezen) # z-scores
head(zLezen) # eerste paar observaties van variabele zLezen
## [1] -1.1575990 0.6776189 2.3716662 -0.3105753 0.1129365 -0.7340872
Referenties
In het Engels wordt de streep of middenberm in het midden van een weg aangeduid als de “median” (Am.Eng.) of “central reservation” (Br.Eng.); deze streep verdeelt de weg in twee meestal even grote helften.↩︎
Dit is vergelijkbaar met sporten als roeien, zwemmen, wielrennen, schaatsen, e.d., waar ook de tijd over een afgesproken afstand gemeten en vergeleken wordt, en niet de snelheid over een afgesproken tijd.↩︎
In een klassieke boxplot strekken de lijnen zich uit naar het minimum en maximum (Tukey 1977) en worden uitbijters niet apart aangeduid.↩︎
We delen door \(n-1\) en niet door \(n\), om een betere schatting te krijgen van de spreiding in de populatie. Op deze manier houden we rekening met het feit dat we één kenmerk van de steekproef (nl. het gemiddelde) gebruiken om de spreiding te bepalen. Als je alleen geïnteresseerd bent in de spreiding in je steekproef van observaties, en niet in de populatie, deel dan door \(n\).↩︎
Positieve afwijkingen blijven ongewijzigd, van negatieve afwijkingen wordt het teken omgekeerd.↩︎
Deze “odds” geeft aan dat er 23 geslaagden zijn op 6 gezakten, d.i. afgerond 4 geslaagden voor iedere gezakte.↩︎
Check: \(z = +2 = \frac{(x_i-\overline{x})}{s_x}\), dus \(2 s = (x_i-\overline{x})\), dus \(x_i = \overline{x}+2s\).↩︎