Hoofdstuk 16 Chi-kwadraat-toetsen

16.1 Inleiding

We zagen al eerder dat we niet altijd gebruik kunnen maken van een parametrische toets zoals de \(t\)-toets of variantie-analyse, omdat de verzamelde gegevens niet voldoen aan de aannames. Als de verzamelde gegevens niet op interval-niveau gemeten zijn (zie hoofdstuk 4), of als de kansverdeling van de gegevens verre van normaal is (zie §10.5), dan verdient een non-parametrische toets de voorkeur boven zo’n parametrische toets. Als de verzamelde gegevens wèl voldoen aan de aannames voor een parametrische toets, dan is een non-parametrische toets minder gevoelig (conservatiever) dan een parametrische toets, d.w.z. dat de non-parametrische toets een groter effect vereist en/of een grotere steekproef vereist, en in het algemeen minder power heeft dan een parametrische toets bij het opsporen van een effect (zie hoofdstuk 14).

In dit hoofdstuk bespreken we de meest gebruikte non-parametrische toets: de \(\chi^2\)-toets.

16.2 \(\chi^2\)-toets voor “goodness of fit” in enkele steekproef

Gegevens van het nominale meetniveau worden vaak geanalyseerd met de zgn. \(\chi^2\)-toets (met de Griekse letter “chi”). Het aantal ogen op een dobbelsteen is een voorbeeld van een afhankelijke variabele van nominaal meetniveau: er is geen ordening tussen de zes zijden, en elke zijde van een dobbelsteen heeft een even grote kans om als bovenzijde te verschijnen. Stel, we gooien \(60\times\) met een dobbelsteen, en vinden de volgende frequenties van de zes mogelijke uitkomsten: \(14, 9, 11, 10, 15, 1\). Dit is te beschouwen als een steekproef van \(n=60\) worpen uit een oneindige populatie van mogelijke worpen, en de hier gerapporteerde frequenties van uitkomsten zijn te beschouwen als een kruistabel van 1 rij en 6 kolommen (d.i. 6 cellen). Hoe groot is de kans op deze verdeling van uitkomsten? Is de dobbelsteen wel eerlijk?

De \(\chi^2\)-toets is gebaseerd op de verschillen tussen de verwachte en geobserveerde frequenties. Volgens de nul-hypothese (de dobbelsteen is eerlijk) verwachten we 10 uitkomsten in iedere cel (\(60/6=10\)), m.a.w. de verwachte frequentie is identiek voor iedere cel (dat wordt een uniforme verdeling genoemd). De geobserveerde uitkomsten wijken af van de verwachte frequenties van uitkomsten, met name omdat de uitkomst “zes” nauwelijks voorkomt in deze steekproef. Dat zou natuurlijk ook toeval kunnen zijn. De \(\chi^2\)-toets geeft aan hoe groot de kans is op deze “scheve” verdeling van uitkomsten (of een nog schevere verdeling), als H0 waar is. De verwachte uitkomsten worden dus afgeleid uit een verdeling van de uitkomsten volgens H0, en we onderzoeken hoe goed de geobserveerde uitkomsten passen bij de verwachte uitkomsten. Deze vorm van de wordt daarom ook aangeduid als een toets van de ‘goodness of fit’.

Voor dit voorbeeld vinden we als uitkomst van de toetsing \(\chi^2=12.44\) met 5 vrijheidsgraden (zie §13.2.1 voor uitleg over vrijheidsgraden), met \(p=.03\). We laten deze kanswaarde meestal door de computer uitrekenen, maar we kunnen die kans ook schatten via een tabel met kritieke \(\chi^2\)-waarden, zie Bijlage D, en voetnoot ³⁵). Als H0 waar is, dan hebben we slechts 3% kans om deze uitslag te vinden (of een nog extremere verdeling van uitkomsten). Deze gevonden significantie \(p\) is kleiner dan \(\alpha=.05\), en dus verwerpen we H0. We concluderen dat deze dobbelsteen niet eerlijk is: de gevonden verdeling van uitkomsten wijkt significant af van de verwachte verdeling volgens H0.

16.3 \(\chi^2\)-toets voor homogeniteit van een variabele in meerdere steekproeven

De \(\chi^2\)-toets is ook goed bruikbaar bij een onderzoeksontwerp met een nominale variabele, die we geobserveerd hebben in twee of meer steekproeven. De vraag is dan of de verdeling van de observaties over de categorieën gelijk is voor de verschillende steekproeven. Deze toets is vergelijkbaar met \(t\)-toets de voor twee onafhankelijke steekproeven (§13.6). De aantallen observaties vatten we dan doorgaans samen in een kruistabel met meerdere rijen voor de verschillende steekproeven, en meerdere kolommen voor de categorieën van de nominale afhankelijke variabele (zie ook tabel 11.3).

De \(\chi^2\)-toets is weer gebaseerd op de verschillen tussen de verwachte en geobserveerde frequenties. Volgens de nul-hypothese (er is géén verschil in verdeling tussen de twee steekproeven) zou de verdeling van observaties over de kolommen ongeveer gelijk moeten zijn voor alle rijen (en vice versa).

16.4 \(\chi^2\)-toets voor verband tussen twee variabelen in enkele steekproef

Tenslotte is de \(\chi^2\)-toets eveneens goed bruikbaar bij een onderzoeksontwerp met twee nominale variabelen, die we geobserveerd hebben in een enkele steekproef. De vraag is dan of de verdeling van observaties over categorieën van de tweede variabele gelijk is voor de verschillende categorieën van de eerste variabele (en vice versa). De aantallen observaties vatten we wederom samen in een kruistabel met meerdere rijen voor de categorieën van de eerste nominale variabele, en meerdere kolommen voor de categorieën van de tweede nominale variabele.

De \(\chi^2\)-toets is ook hier gebaseerd op de verschillen tussen de verwachte en geobserveerde frequenties. Volgens de nul-hypothese (er is géén verband tussen de twee nominale variabelen) zou de verdeling van observaties over de rijen ongeveer gelijk moeten zijn voor alle kolommen, en vice versa. Dat betekent echter niet dat we voor alle cellen dezelfde frequentie verwachten. Dat wordt geïllusteerd in het volgende voorbeeld.

Voorbeeld 16.1: In de vroege ochtend van 15 april 1912 zonk de Titanic in de Atlantische Oceaan. Veel opvarenden verloren het leven. De opvarenden waren te onderscheiden in vier klassen (1st/2nd/3rd class passagiers, en crew). Was de uitkomst van de ramp (opvarende heeft de ramp niet of wel overleefd) ongeveer gelijk voor personen van deze vier klassen? De kruistabel 16.1 geeft de verdelingen van uitkomsten.

Tabel 16.1: Verdeling van opvarenden van de *Titanic* (\(N=2201\)), naar klasse van overtocht en naar status als (niet/wel) overlevende. Gegevens ontleend aan dataset `Titanic` in R.
klasse	niet	wel	totaal
1st	122	203	325
2nd	167	118	285
3rd	528	178	706
crew	673	212	885
totaal	1490	711	2201

Bij de verwachte frequenties moeten we rekening houden met de verschillende aantallen opvarenden in de verschillende klassen, en met de ongelijke verdeling van uitkomsten (1490 niet-overlevenden en 711 wel-overlevenden). Als er geen verband zou zijn tussen de klasse en de overlevingsstatus, dan zouden we voor de eerste-klasse-passagiers verwachten dat er 220 niet-overlevenden zouden zijn [\((1490/2201) \times 325 = (325 \times 1490) / 2201 = 220\)] en 105 wel-overlevenden [\((711/2201) \times 325 = (325 \times 711) / 2201\) = 105]. Op deze manier kunnen we de verwachte frequenties voor iedere cel bepalen, rekening houdend met de randtotalen. Met behulp van die verwachte frequenties berekenen we dan \(\chi^2=190.4\), hier met 3 d.f., \(p<.001\). De gevonden significantie \(p\) is kleiner dan \(\alpha=.001\), en dus verwerpen we H0. We concluderen dat de uitkomst van de scheepsramp (wel/niet overlevende) ongelijk verdeeld was voor de vier klassen van opvarenden van de Titanic.

Voor de analyse van kruistabellen bestaande uit precies \(2\times2\) cellen is de Phi coefficiënt een bruikbaar alternatief (zie §11.6).

Herlees en onthoud de waarschuwingen over correlatie en causaliteit (§11.7) — die zijn ook hier van toepassing.

16.5 aannames

De \(\chi^2\)-toets vereist drie aannames (assumpties) waaraan voldaan moet zijn, om de toets te mogen gebruiken.

De gegevens moeten gemeten zijn op nominaal niveau, of moeten zijn versimpeld tot nominaal niveau (zie hoofdstuk 4).
Alle observaties moeten onafhankelijk van elkaar zijn, en gebaseerd op (een) aselecte steekproef(/ven) uit de populatie(s) (zie §7.3), of op aselecte toewijzing van de elementen uit een steekproef aan onderzoekscondities (randomisatie, zie §5.4, punt 5). Ieder element uit de steekproef mag dus maar één observatie aan één cel bijdragen³⁶.
De steekproef is zodanig groot dat de verwachte frequentie (\(E\)) voor elke cel tenminste 5 is. Als de verwachte frequentie(s) in één of meerdere cellen minder dan 5 is/zijn, reduceer dan het aantal cellen door aangrenzende cellen samen te voegen, en de verwachte frequenties opnieuw te bepalen.

16.6 formules

De toetsingsgrootheid \(\chi^2\) is gedefinieerd als \[\begin{equation} \tag{16.1} \chi^2 = \sum \frac{(O-E)^2}{E} \end{equation}\] waarbij \(O\) en \(E\) de geobserveerde (Observed) en verwachte (Expected) aantallen observaties aangeven voor iedere cel van de frequentietabel (Ferguson and Takane 1989). De verwachte aantallen kunnen ook gebroken getallen zijn (bijv. \(45/6\) voor de 6 mogelijke uitkomsten van een eerlijke dobbelsteen, als we \(45\times\) gooien). Naarmate het verschil \((O-E)\) in een of meerdere cellen groter is, zal \(\chi^2\) ook groter zijn. Door het kwadrateren is de toetsingsgrootheid \(\chi^2\) altijd nul of positief, en nooit negatief (Ferguson and Takane 1989).

De kansverdeling van de toetsingsgrootheid \(\chi^2\) wordt bepaald door het aantal vrijheidsgraden (zie §13.2.1 voor uitleg van dit concept). Bij een \(\chi^2\)-toets met één nominale variabele (“goodness of fit”) is het aantal vrijheidsgraden gelijk aan het aantal cellen minus 1. Bij een \(\chi^2\)-toets met meerdere steekproeven (homogeniteit) en/of met twee variabelen (verband), met respectievelijk \(k\) en \(m\) categorieën, is het aantal vrijheidsgraden gelijk aan \((k-1)\times(m-1)\).

Voor iedere cel van de frequentietabel (in regel \(i\) en kolom \(j\)) kunnen we ook het ruwe residu berekenen: \[\begin{equation} \tag{16.2} e_{ij} = \frac{(O_{ij}-E_{ij})}{\sqrt{E_{ij}}} \end{equation}\] Als we al deze ruwe residuen \(e\) kwadrateren en de kwadraten optellen, dan levert dat de bovenstaande toetsingsgrootheid \(\chi2\) op (formule (16.1)).

Het is echter inzichtelijker om het gestandardiseerde residu van iedere cel te bepalen (Agresti 2007, 38). Daarbij houden we dan rekening met de standaardfout van de residuen (via de rij-totalen \(R_i\), kolom-totalen \(C_j\), en totaal aantal observaties \(N\)): \[\begin{equation} \tag{16.3} e_{ij} = \frac{(O_{ij}-E_{ij})}{\sqrt{E_{ij}\times(1-\frac{R_i}{N})\times(1-\frac{C_j}{N})}} \end{equation}\] De gestandaardiseerde residuen \(e\) kunnen geïnterpreteerd worden alsof het \(Z\)-waarden zijn, met gebruik van de kritieke \(Z\)-waarden (zie Bijlage B). De aangepaste en gestandaardiseerde residuen laten dus zien welke cellen vooral bijdragen aan een significante uitkomst van de \(\chi^2\)toets ³⁷.

Voor het bovenstaande voorbeeld in §16.2 vinden we de volgende zes gestandaardiseerde residuen voor de zes mogelijke uitkomsten van de dobbelsteen: \((1.39, -0.35, +0.35, 0.00, 1.73, -3.12)\). De eerste vijf uitkomsten komen ongeveer even vaak voor als verwacht, maar de zesde mogelijke uitkomst is veel minder vaak geobserveerd dan verwacht (\(p\)=.003).

16.7 SPSS

16.7.1 goodness of fit: voorbereiding

Als we een nominale variabele willen onderzoeken, dan moet die uiteraard als kolom in het SPSS databestand zijn aangemerkt. Iedere observatie vormt een aparte regel in het databestand, en de nominale afhankelijke variabele is een kolom in het databestand.

Soms beschikken we niet over de afzonderlijke observaties (regels) maar wel over de tabel van aantallen observaties per categorie van de nominale variabele. We kunnen daarmee ook verder werken. Stel je voor dat we twee kolommen hebben, genaamd uitkomst en aantal, als volgt (zie §16.2):

uitkomst aantal
 1        14
 2         9
 3        11
 4        10
 5        15
 6         1

Vervolgens moet iedere cel (regel) een gewicht krijgen dat even groot is als het aantal observaties, dat hier genoemd is in de tweede kolom: de eerste cel (regel) weegt \(14\times\) mee, de tweede cel (regel) weegt \(9\times\) mee, enz. Met deze truc hoeven we niet \(N=60\) regels in te vullen (voor elke observatie een regel), maar slechts 6 regels (voor elke cel een regel).

Data > Weigh Cases...

Kies Weigh cases by... en selecteer de variabele aantal in het invulveld. Bevestig met OK.

16.7.2 goodness of fit: toetsing

Analyze > Nonparametric tests > Legacy Dialogs > Chi-square...

Selecteer de variabelen uitkomst (in “Test variable list” paneel) en geef aan dat we gelijke aantallen observaties verwachten in elke cel. (Het is ook mogelijk om hier andere verwachte frequenties in te voeren, als er volgens H0 andere, ongelijke frequenties verwacht worden.) Bevestig met OK.

16.7.3 kruistabellen: voorbereiding

Als we twee nominale variabelen willen onderzoeken, dan moeten die allebei als kolommen in het SPSS databestand zijn aangemerkt. Iedere observatie vormt een aparte regel in het databestand, en de nominale variabelen zijn kolommen in het databestand. Voor het voorbeeld 16.1 hierboven zouden we dan een “lang” databestand gebruiken dat bestaat uit \(N=2201\) regels, voor elke opvarende een aparte regel, met tenminste twee kolommen, voor klasse en overlevende.

Soms beschikken we niet over de afzonderlijke observaties (regels) maar wel over de kruistabel van aantallen observaties voor iedere combinatie van categorieën van de de nominale variabelen. We kunnen daarmee ook verder werken. Stel je voor dat we drie kolommen hebben, genaamd klasse, overlevende en aantal, als volgt:

klasse overlevende aantal
1st     niet       122
1st     wel        203
2nd     niet       167
2nd     wel        118
3rd     niet       528
3rd     wel        178
crew    niet       673
crew    wel        212

Vervolgens moet iedere cel (regel) een gewicht krijgen dat even groot is als het aantal observaties, dat genoemd is in de derde kolom: de eerste cel (regel) weegt \(122\times\) mee, de tweede cel (regel) weegt \(203\times\) mee, enz. Met deze truc hoeven we niet \(N=2201\) regels in te vullen (voor elke observatie een regel), maar slechts 8 regels (voor elke cel een regel).

Data > Weigh Cases...

Kies Weigh cases by... en selecteer de variabele aantal in het invulveld. Bevestig met OK.

16.7.4 kruistabellen: toetsing

De toetsing verloopt op dezelfde wijze als beschreven in §11.6 voor de samenhang tussen twee nominale variabelen.

Analyze > Descriptives > Crosstabs...

Selecteer de variabelen klasse (in “Rows” paneel) en overlevende (in “Columns” paneel) voor kruistabel 16.1.
Kies Statistics… en vink de optie Chi-square aan. Bevestig eerst met Continue en daarna nogmaals met OK.

16.8 JASP

16.8.1 goodness of fit: voorbereiding

Als we een nominale variabele willen onderzoeken, dan moet die uiteraard als kolom in het databestand zijn aangemerkt. Het is gebruikelijk dat iedere observatie dan een aparte regel vormt in dit databestand. Voor de “goodness of fit” \(\chi^2\)-toets moet de data echter net iets anders worden ingevoerd. Niet alle afzonderlijke observaties moeten worden ingevoerd, maar de aantallen (ook wel ‘frequenties’ of ‘counts’) observaties per categorie van de nominale variabele. Hierdoor hoeven we niet \(N=60\) regels in te vullen (voor elke observatie een regel), maar slechts 6 regels (voor elke categorie een regel). Voor het voorbeeld uit §16.2 ziet dit er als volgt uit:

uitkomst aantal
 1        14
 2         9
 3        11
 4        10
 5        15
 6         1

Om deze data in JASP te krijgen maak je een Excel-bestand aan waar je de data invoert (precies zoals hierboven weergegeven, met de variabele-namen erbij). Sla dit bestand op als CSV-bestand (.csv, dus niet .xlsx), en open het in JASP.

16.8.2 goodness of fit: toetsing

Klik in de bovenbalk op:

Frequencies > Multinomial Test (onder 'Classical')

Selecteer de variabele uitkomst en plaats deze in het veld “Factor”. Plaats de variabele aantal in het veld “Count”.

Onder “Test Values” kun je kiezen voor Equal proportions (multinomial test) en Expected proportions (chi-square test).
De multinomial test is een speciale versie van een \(\chi^2\)-toets waarbij de nul-hypothese wordt getoetst dat de aantallen gelijk zijn, m.a.w. de verwachte frequentie is identiek voor iedere cel (dat wordt een uniforme verdeling genoemd). Dat betekent in dit voorbeeld dat de dobbelsteen eerlijk is, en dat is ook wat we willen toetsen. Je kan in dit geval dus Equal proportions (multinomial test) kiezen.
Als je Expected proportions (chi-square test) kiest, kun je de verwachte aantallen observaties in elke cel aanpassen. Als er volgens H0 andere, ongelijke frequenties verwacht worden, kies je dus deze optie en vul je de verwachting in onder H0 in de tabel die verschijnt (je geeft de cellen een ander ‘gewicht’, d.w.z. hoe vaak ze meetellen). De waardes onder H0 voor elke cel staan echter standaard op 1, waarmee je gelijke frequenties test. Je krijgt dan dezelfde resultaten als met de multinomial test, dus voor ons voorbeeld maakt het niet zoveel uit welke van de twee opties je kiest.

Je kunt ook nog Descriptives en Confidence interval aanvinken onder “Additional Statistics” en Descriptives plot onder “Plots” om meer inzicht te krijgen in wat je toetst.

Het is in JASP niet mogelijk om gestandaardiseerde residuen op te vragen bij deze toets; je kunt die wel zelf uitrekenen met de geobserveerde en verwachte aantallen.

16.8.3 kruistabellen: voorbereiding

Als we twee nominale variabelen willen onderzoeken, dan moeten die allebei als kolommen in het databestand zijn aangemerkt. Het is gebruikelijk dat iedere observatie dan een aparte regel vormt in dit databestand. Voor de \(\chi^2\)-toets met twee nominale variabelen kan zo’n “lang” databestand ook worden gebruikt in JASP. Voor het voorbeeld 16.1 hierboven zouden we dan \(N=2201\) regels hebben: voor elke opvarende een aparte regel, met tenminste twee kolommen, voor klasse en overlevende.

Soms beschikken we niet over de afzonderlijke observaties (regels) maar wel over de kruistabel van aantallen observaties voor iedere combinatie van categorieën van de de nominale variabelen. We kunnen daarmee ook verder werken in JASP. Hierdoor hoeven we niet \(N=2201\) regels in te vullen (voor elke observatie een regel), maar slechts 8 regels (voor elke cel een regel). Voor voorbeeld 16.1 ziet dit er als volgt uit:

klasse overlevende aantal
1st     niet       122
1st     wel        203
2nd     niet       167
2nd     wel        118
3rd     niet       528
3rd     wel        178
crew    niet       673
crew    wel        212

16.8.4 kruistabellen: toetsing

De toetsing verloopt op dezelfde wijze als beschreven in §11.6 voor de samenhang tussen twee nominale variabelen.

Klik in de bovenbalk op:

Frequencies > Contingency Tables (onder 'Classical')

Selecteer de variabele klasse in het “Rows” paneel, de variabele overlevende in het “Columns” paneel en variabele aantal in het “Counts” paneel voor kruistabel 16.1. Open de Statistics balk en zorg dat Chi-square (\(\chi^2\)) is aangevinkt. De waarde voor \(\chi^2\) verschijnt dan in de uitvoer in de tabel getiteld Chi-Squared Tests. Open de Cells balk en zorg dat Expected counts zijn aangevinkt en dat ook Pearson residuals en Standardized (adjusted Pearson) zijn aangevinkt.

Mocht je toch een “lang” databestand hebben, waarbij elke regel een aparte observatie is, dan hoef je alleen de variabele klasse in het “Rows” paneel en de variabele overlevende in het “Columns” paneel te selecteren.

Het aantal overlevenden is significant groter dan verwacht onder H0 voor passagiers van de eerste en van de tweede klasse (positieve gestandaardiseerde residuen, beide \(p<.001\)) en significant geringer dan verwacht onder H0 voor passagier van de derde klasse en voor de bemanning (negatieve gestandaardiseerde residuen, beide ook \(p<.001\)).

16.9 R

16.9.1 goodness of fit: toetsing

chisq.test( c( 14, 9, 11, 10, 15, 1 ) ) -> dobbel.chi2.htest # dobbelsteen §16.2
print(dobbel.chi2.htest)

## 
##  Chi-squared test for given probabilities
## 
## data:  c(14, 9, 11, 10, 15, 1)
## X-squared = 12.4, df = 5, p-value = 0.0297

dobbel.chi2.htest$residuals # STD.resid. in ...chisq.htest$residuals

## [1]  1.2649111 -0.3162278  0.3162278  0.0000000  1.5811388 -2.8460499

16.9.2 kruistabellen: voorbereiding en toetsing

In R is de dataset Titanic gegeven als een multidimensionele matrix. We tellen de observaties op en maken een kruistabel van de eerste dimensie (klasse) en de vierde dimensie (uitkomst).

apply( Titanic, c(1,4), sum ) -> Titanic.klasseuitkomst

Vervolgens gebruiken we deze kruistabel weer als invoer voor een chisq.test. Die chisq.test slaan we op zijn beurt weer op, om de residuals te inspecteren.

chisq.test( Titanic.klasseuitkomst ) -> Titanic.chisq.htest
print(Titanic.chisq.htest)

## 
##  Pearson's Chi-squared test
## 
## data:  Titanic.klasseuitkomst
## X-squared = 190.4, df = 3, p-value < 2.2e-16

Titanic.chisq.htest$residuals

##       Survived
## Class         No       Yes
##   1st  -6.607873  9.565772
##   2nd  -1.867159  2.702959
##   3rd   2.289965 -3.315027
##   Crew  3.018611 -4.369840

Opvallend zijn het geringe aantal doden onder de eerste-klasse-passagiers, en het grote aantal doden onder de bemanning. R toont hier overigens de ruwe (niet gestandaardiseerde) residuen.

16.10 Effectgrootte: odds ratio

Bij het gebruik van de \(\chi^2\)-toets kan de effectgrootte worden gerapporteerd in de vorm van de zgn. “odds ratio”. De ‘odds ratio’ wordt afgeleid van de kruistabel met frequenties per cel; de ‘odds ratio’ is het meest gebruikelijk bij een \(2\times2\) kruistabel. We leggen een en ander uit aan de hand van het volgende voorbeeld met een \(2\times2\) kruistabel.

Voorbeeld 16.2: Doll and Hill (1956) onderzochten de relatie tussen roken en longkanker. Eerst enqueteerden zij alle Britse artsen over hun leeftijd en rookgedrag. Vervolgens hielden deze onderzoekers jarenlang de overlijdensberichten en de doodsoorzaak bij van alle geënqueteerden. De eerste uitkomsten, na ruim vier jaar, zijn samengevat in tabel 16.2.

Tabel 16.2: Kruistabel van \(N=24354\) Britse artsen van 35 jaar en ouder bij de eerste enquete, onderverdeeld naar rookgedrag (rijen: wel/niet rokend resp. gerookt hebbend) en naar sterfte door longkanker in de afgelopen 4 jaar (kolommen), met letter-aanduiding voor de aantallen observaties.
rokend	niet longkanker		wel longkanker		totaal
niet (0)	3092	(A)	1	(B)	3093	(A+B)
wel (1)	21178	(C)	83	(D)	21261	(C+D)
totaal	24270	(A+C)	84	(B+D)	24354	(A+B+C+D)

Op de gebruikelijke wijze vinden we \(\chi^2=10.35\), df=1, \(p<.01\). We concluderen dat er een verband is tussen rookgedrag en de sterfte door longkanker.

Voor de effectgrootte berekenen we eerst de ‘odds’ van sterfte door longkanker voor de rokers: D/C= \(83/21178 =0.00392\). Onder de rokers staan er 83 sterfgevallen-door-longkanker tegenover 21178 niet-sterfgevallen-door-longkanker (de ‘odds’ om te overlijden aan longkanker zijn 1 op de 0.00392). Voor de niet-rokers: B/A= \(1/3092 =0.00032\) (de ‘odds’ zijn 1 op de 0.00032).

De verhouding van deze beide ‘odds’ voor de beide groepen noemen we de ‘odds ratio’ (afgekort OR). In dit voorbeeld vinden we (D/C) / (B/A) = AD/BC = \((3092 \times 83) / (1 \times 2178) = (0.00392)/(0.00032) = 12.1\). De ‘odds’ om te sterven aan longkanker zijn dus ruim \(12\times\) zo groot voor de rokers dan voor de niet-rokers. We rapporteren dat als volgt:

Doll and Hill (1956) vonden een significant verband tussen rookgedrag en sterfte door longkanker, \(\chi^2(1)=10.35, p<.01, \textrm{OR}=12.1\). De ‘odds’ om te overlijden door longkanker bleken ruim \(12\times\) zo groot voor rokers als voor niet-rokers.

Referenties

Agresti, Alan. 2007. Introduction to Categorical Data Analysis. Hoboken, NJ: Wiley.

Doll, Richard, and A. Bradford Hill. 1956. “Lung Cancer and Other Causes of Death in Relation to Smoking: A Second Report on the Mortality of British Doctors.” British Medical Journal, 1071–81. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2035864/.

Ferguson, George A., and Yoshio Takane. 1989. Statistical Analysis in Psychology and Education. 6e ed. New York: McGraw-Hill.

Maxwell, Scott E., and Harold D. Delaney. 2004. Designing Experiments and Analyzing Data: A Model Comparison Perspective. Book. 2nd ed. Mahwah, NJ: Lawrence Erlbaum Associates.

De gevonden waarde \(\chi^2=12.44\) ligt iets onder de kritieke waarde voor 5 d.f. en \(p=.03\), (daar staat \((\chi^2)^*=12.83\)), dus de bijbehorende kans op deze waarde of een grotere waarde is iets groter dan \(0.03\).↩︎
Als de observaties van één variabele niet onafhankelijk maar gepaard zijn (bijv. voor/na behandeling, wel/niet geslaagd, enz), dan biedt de McNemar test een bruikbaar alternatief.↩︎
Als er meerdere vergelijkingen worden gedaan, dan moet de kritieke waarde van \(\alpha\) worden aangepast, om Type-I-fouten bij die meerdere vergelijkingen te voorkomen. Als er \(k\) cellen en dus \(k\) vergelijkingen zijn, dan is het veilig om \(\alpha/k\) i.p.v. \(\alpha\) te gebruiken bij elke vergelijking – dit staat bekend als Bonferroni’s aanpassing van de \(\alpha\)-waarde, of als Dunn’s procedure (Maxwell and Delaney 2004, 202). Zie ook §15.3.5.↩︎