\require{AMSmath}
WisFaq - de digitale vraagbaak voor wiskunde en wiskunde onderwijs


Printen

Re: Re: Voorspellingsinterval en betrouwbaarheidsinterval

 Dit is een reactie op vraag 49988 
Al deze aantallen zijn gebaseerd op een steekproef. Dit zou betekenen dat een betrouwbaarheidsinterval om de parameter 28 een interval geeft waartussen de echte parameter zou zitten, toch? Maar bij Poisson is de verwachting toch gelijk aan de parameter? dus E(k)=28 met k=aantallen klanten in 2 weken. Dus wat zegt deze verwachting dan? Dat een het verwacht aantal klanten na 2 weken 28 is? en heirom heen kan je dan een betrouwbaarheidsinterval opstellen wat dan een betrouwbaarheidsinterval voor het verwacht aantal klanten geeft na 2 weken. Maar wat is dan het verschil tussen verwacht aantal en voorspeld aantal?
Sorry maar het is mij nog niet helemaal duidelijk..

caro
Student hbo - woensdag 4 april 2007

Antwoord

Houdt moed! Betrouwbaarheid is m.i. een van de moeilijkste dingen om te begrijpen. Als je dat snapt hebt je dus ook het moeilijkste gehad. Dat komt doordat het onderscheid tussen betrouwbaarheid en kans essentieel is, maar ook heel subtiel. Maar, het is een mooie uitdaging te proberen dat per computer uit te leggen...

Eerst heel even reageren op wat jij schrijft. Je schrijft dat de aantallen in jouw vraag zijn gebaseerd op een steekproef. Maar dat zie ik niet in jouw vraag:
Je schrijft nl. "Stel dat er 2 klanten per dag aankomen ...". Daarmee kun je alleen bedoelen dat er gemiddeld twee klanten per dag aankomen. Dus doe je niet alleen een uitspraak over die ene dag, maar meteen over alle dagen. Dat is dus geen steekproef maar een uitspraak over de hele populatie. Er is dan ook geen sprake van een betrouwbaarheidsinterval want je geeft meteen een waarde voor de parameter l van de Poissonverdeling, nl l=14·2=28 (omdat je het over een periode van 14 dagen hebt). Er is dan ook geen sprake van een betrouwbaarheidsinter
Als je geschreven had: "Stel dat er op een dag 2 klanten aankomen ...". Dan was het heel anders geweest. Dan was er namelijk wel sprake van een steekproef. Dan kun je dus wel vragen welke waarden van l
hierbij horen. Nu is er wel sprake van een betrouwbaarheidsinterval. Dat is namelijk het interval waarvan je met b.v. 95% betrouwbaarheid kunt zeggen dat l in dat interval zal zitten.
Hopelijk illustreert dit hoe subtiel, maar tegelijk ook essentieel het onderscheid is.

Maar goed. Laat ik nu eens proberen het voorspellingsinterval en het betrouwbaarheidsinterval netjes te definieren en meteen voor een concreet geval te illustreren. Ik ga daarbij maar even uit van een Poissonverdeling omdat dat aansluit bij jouw voorbeeld. Maar dat maakt voor het principe niet uit.

Stel: de k is een poisson verdeelde stochast met gemiddelde l.
Dan geldt: P(k=a)=lae-a/a!
En ook : P(akb) = ån van a tot blne-n/n!
Ik neem aan dat dit allemaal bekend is?

Nu eerst het voorspellingsinterval:
Eingenlijk is het interval [a,b] hierboven al een voorspellingsinterval.
Even een voorbeeld. Neem l=28. Dan is P(25k30)=0,43. Dus [25,30] is een voorspellingsinterval met kans 0,43 (dus 43%)
Alleen gebruik je het voorspellingsinterval meestal niet zo. Je geeft een kans op. B.v. 95% en je zoek dan een interval dat klopt met die kans.
Even verder met het voorbeeld: P(k36)=0,94 en P(k37)=0,96.
Dus [0,37] is een voorspellingsinterval met een kans van 95%. k zit met een kans van (meer dan) 95% in dat interval.
Let wel, dit is niet het enige voorspellingsinterval met een kans van 95%. Het is zelfs niet het meest logische. Meestal bedoel je het interval [a,b] zodat P(ka)=P(kb)=0,025 (dus de 2,5% kans dat k boven het interval zit en 2,5% dat k eronder zit). In jouw geval is dat het interval [17,39].
Dit laatste beschrijft aardig wat er zal gebeuren. Als er gemiddeld 28 klanten in een periode komen kun je met 95% zekerheid zeggen dat het aantal in de komende periode tussen de 17 en de 39 zal zitten.

Maar nu het betrouwbaarheidsinterval. Ik pas jouw voorbeeld nu een beetje aan. Stel dat er in twee weken 28 klanten zijn gekomen. Dan is het best logisch te denken dat er gemiddeld ongeveer 28 klanten per twee weken komen.
Maar, je weet het niet zeker. Je wilt (vooral als er op grond van jouw berekening belangrijke besluiten moeten worden genomen) kunnen zeggen dat het gemiddeld aantal met een betrouwbaarheid van (doe maar weer als voorbeeld) 95% binnen een bepaald interval ligt. Dat is het 95% betrouwbaarheidsinterval.

nu komt de truuk!
Dat ga ik eerst maar weer even illustreren. Het zou best kunnen zijn dat er gemiddeld maar 20 klanten per twee weken komen. Alleen is de kans dat je dan in een periode van twee weken 28 klanten of meer telt heel klein. Om precies te zijn vind je met l=20 P(k28)=0,052. Dat is klein, maar misschien nog niet onoverkomelijk.
Het zou zelfs kunnen dat er gemiddeld maar 10 klanten per twee weken komen. Maar dan is de kans op jouw meting van 28 wel heel klein want met l=10 vind je P(k28)=2,3x10-6. Dat is zo klein dat je best met zekerheid kunt zeggen dat l zeker niet kleiner dan 10 is. Want als het wel zo is heb je wel enorme pech gehad dat jij er net 28 telde.
Er is natuurlijk ook een andere kant. Het zou ook kunnen dat er gemiddeld 40 klanten per twee weken komen. Maar de kans dat je er dan 28 of minder telt is: (met l=40) P(k28) = 0,029. Weer klein, maar misschien niet onoverkomelijk.

Als je dit snapt kunnen we verder. Overigens nog wel even een opmerking: dat "... of minder ..." is wel heel belangrijk. Het gaat niet om de kans dat er precies 28 zou tellen. Want als jij veronderstelt dat er gemiddeld 40 klanten per twee weken komen is een uitslag van 28 onwaarschijnlijk maar een uitslag van 27 of lager nog onwaarschijnlijker. Eigenlijk gaat het hier om het aannemen of verwerpen van een hypothese (nl dat l40). Maar, dat laat ik nu even buiten beschouwing.

Ok. Dan komt nu het begrip betrouwbaarheid (snel, want ik moet de trein halen). Voor alle mogelijke waarden van l gaan we kijken wat de kans is om 28 of hoger te halen (of juist 28 of lager). Zolang die kleiner is dan 5%.
Daar gaat ie:
voor l=38,4 vind je P(k28)=0,050
voor l=19,9 vind je P(k28)=0,050
En dus kun je met 95% betrouwbaarheid zeggen dat 19,9 l 38,4
Dat is het betrouwbaarheidsinterval.

Ik hoop dat het nu begint te dagen. Ik hoor het in ieder geval graag. Nu ga ik (echt waar) naar het station.

Nog één opmerking. Stel dat je in twee weken 28 klanten hebt geteld en vervolgens wil je voorspellen hoeveel er in de komende twee weken zullen komen. Ja, dan wordt het moeilijk. Je hebt namelijk te maken met een betrouwbaarheidsinterval en voor elke waarde van l in dat betrouwbaarheidsinterval heb je dan weer een voorspellingsinterval. Om eerlijk te zijn weet ik niet hoe je dit dan zou moeten aanpakken. Maar dat is dus weer iets anders.

Groet,
Oscar

os
woensdag 4 april 2007

 Re: Re: Re: Voorspellingsinterval en betrouwbaarheidsinterval 

©2001-2024 WisFaq