"Stel je bent al wat ouder; je loopt door Amsterdam en je komt een vriend van vroeger tegen. Aan zijn hand loopt een jongetje, zijn zoontje. Je zegt hem gedag, vraagt hoe het met hem en zijn gezin gaat, en hij vertelt dat hij nog een kind heeft, dat verderop om de hoek staat. Hoe groot is nu de kans dat dit tweede een jongetje of een meisje is, gegeven dat de kans op jongetjes of meisjes elk 50% is?"
Kans op een jongetje of een meisje
Naar aanleiding van het antwoord op Re: Kans op een jongetje of een meisje...
Waarom wordt er in het voorbeeld bij 1.2 van IKS2004.pdf als antwoord 2/3 gegeven?
Er is een subtiel maar essentieel verschil tussen de vraag die in mijn antwoord is behandeld en het voorbeeld bij 1.2 van IKS2004.pdf.
Bij 'mijn' vraag wordt eerst een willekeurige jongen gekozen uit de populatie van jongens uit gezinnen-met-2-kinderen. Hiervoor zijn 4 'soorten' jongens beschikbaar, van alle soorten zijn er evenveel. 2 soorten jongens hebben een zusje, de andere 2 soorten hebben een broertje. De kans dat het andere kind een meisje is, is dus 50%.
Bij de vraag van IKS2004.pdf (VUB) wordt niet een jongen gekozen, maar een gezin uit de populatie van gezinnen-met-2-kinderen-met-tenminste-1-jongen. Hiervan zijn drie 'soorten' beschikbaar, van elke soort evenveel. Bij 2 soorten is het andere kind een meisje, bij 1 soort is het andere kind een jongen. Bij deze vraag is de kans 2/3 dat het andere kind een meisje is.
Kortom: bij 'mijn' vraag kies je een jongen en bereken je de kans dat hij een zusje heeft (2 mogelijkheden op succes uit totaal 4 mogelijkheden), bij de vraag van de VUB kies je een gezin-met-tenminste-1-jongen en bereken je de kans dat dit gezin ook een meisje heeft (2 mogelijkheden op succes uit totaal 3 mogelijkheden). Het uitgangspunt is anders, niet verwonderlijk dus dat de gevraagde kans ook anders is.
Het drie-deurenraadsel is erg grappig, maar volgens mij een ander type probleem.
GHvD
Ik heb nog eens nagedacht hoe ik het verschil tussen de twee typen vragen kan samenvatten. Ik kom op het volgende:
We beschouwen alle gezinnen met 2 kinderen, waarvan minimaal 1 jongen.
'Mijn' vraag kan dan worden samengevat als:
- selecteer uit deze gezinnen een willekeurige JONGEN;
- hoe groot is de kans dat het andere kind een meisje is?
De vraag van VUB is iets anders:
- selecteer uit deze gezinnen willekeurig GEZIN;
- hoe groot is de kans dat het andere kind een meisje is?
Oplossing eerste vraag:
Er zijn 4 groepen waaruit de jongen kan worden gekozen:
1: jongens met een oudere zus
2: jongens met een jongere zus
3: jongens met een oudere broer
4: jongens met een jongere broer
Van al deze JONGENS zijn er evenveel. Bij de eerste twee groepen is het andere kind een meisje, bij de tweede groep een jongen. De kans dat het andere kind een meisje is, is zodoende 1/2.
Oplossing tweede vraag:
Er zijn 3 groepen waaruit het gezin kan worden gekozen:
1: gezinnen met eerst een jongen en daarna een meisje (J M)
2: gezinnen met eerst een meisje en daarna een jongen (M J)
3: gezinnen met twee jongens (J J)
Van al deze GEZINNEN zijn er evenveel. Bij de eerste twee groepen is het andere kind een meisje, bij de derde groep een jongen. De kans dat het andere kind een meisje is, is zodoende 2/3.
Het essentiele verschil is dat bij de eerste vraag een gezin met twee jongens een dubbele kans heeft om geselecteerd te worden (de twee jongens hebben ieder een kans om uitgekozen te worden), bij de tweede vraag heeft dit gezin de gewone enkele kans.
GHvD
Zeker leuk, maar ook representatief voor het volgende (en dan ronden we af, lijkt me):
leerlingen 'klagen' vaak dat ze bij statistiek-opgaven steeds weer een andere aanpak moeten kiezen terwijl de opgave in hun ogen steeds hetzelfde is. Zij lezen dan over details heen, bijvoorbeeld: 'de kans op MINSTENS 3 rode knikkers' vs. 'de kans op MEER DAN 3 rode knikkers'. De slordige lezer realiseert niet dat PRECIES 3 knikkers in het eerste geval wel mag meetellen, en in het tweede geval niet.
Leerlingen vinden dit vaak flauw. Het is echter meer dan een taalspelletje, want ook in de dagelijkse praktijk zie je ronduit foutieve interpretaties van statistiek. Een ergerlijk voorbeeld is van het volgende type:
Een duur en een goedkoop medicijn worden op hun werking vergeleken. Er wordt geen (significant) verschil gevonden. Er zijn nu twee mogelijkheden:
- er is werkelijk geen verschil; of:
- er is wel verschil, maar er zijn teveel storende factoren om dit verschil hard te maken.
De enig juiste conclusie is: het onderzoek toont een eventueel verschil niet aan (maar verschil is wel mogelijk).
De fabrikant van het goedkope medicijn beweert graag: onderzoek toont aan dat er geen verschil is.
Klein verschil in woorden, maar essentieel in betekenis. Op deze wijze beweert de tabaksindustrie nog steeds dat roken geen kwaad kan: neem een kleine steekproef onder rokers en niet-rokers, laat zien dat je op basis hiervan geen verschil in levensverwachting kunt aantonen en beweer vervolgens dat je hebt aangetoond dat er geen verschil in levensverwachting is.
Het is erg goed dat leerlingen leren om vraagstelling en conclusies zorgvuldig te analyseren, je wordt dan niet zo snel door anderen met drogredenen misleid. Iemand beweerde eens: "Cijfers liegen niet, maar leugenaars kunnen heel goed cijferen". Je moet zelf ook goed kunnen cijferen om deze leugenaars te ontmaskeren.
GHvD