WisFaq - printen

WisFaq!

\require{AMSmath} geprint op vrijdag 22 november 2024

Hoe bereken je de betrouwbaarheid van een steekproef, bepaald op 30 toetsingen

Onderzoek:

steekproefgrootte: 30 bedrijven per stad per kwartaal (Het getal 30 staat vast en mag niet gewijzigd worden)

Vraag: hoe kan bepaald worden of de 30 bedrijven binnen de steekproef voldoende is om een uitspraak over het totaal aantal bedrijven in de stad. Wat is de betrouwbaarheidsinterval / significantie niveau

Met vriendelijke groet,

Guido
Guido Dinjens
30-9-2007

Antwoord

Beste Guido,
Je vraag is lang niet nauwkeurig genoeg.
Om te beginnen moeten we weten of 30 klein of groot is in verhouding tot het totaal aantal bedrijven in de stad.
Ik neem aan: klein.
Vervolgens moeten we weten of de vragen van de enquête open vragen zijn dan wel meerkeuzevragen, en in het geval van meerkeuzevragen hoeveel mogelijke antwoorden er zijn per vraag.
Ik neem aan, om een voorbeeld te kunnen geven, dat je het tweede bedoelt, met drie mogelijke antwoorden per vraag, namelijk ja, nee en weetniet.
We moeten ook weten hoeveel vragen er zijn. Ik neem als voorbeeld twintig vragen. Dan kun je namelijk nog net de tabellen van de binomiale verdeling gebruiken, voor meer dan twintig moet je gaan benaderen met een normale verdeling.
Volgens het statistiekboek van Nijst en Wijnen, eerste druk blz 335, is bij twintig proeven met per proef een kans van hoogstens 0.05 op mislukking en minstens 0.95 op succes, de kans op hoogstens twee mislukkingen minstens 0.9245. Dat lijkt me een goed uitgangspunt: we willen dan per vraag een kans van minstens 0.95 op succes. Wat verstaan we nu onder succes?
Als je een respons hebt van n bedrijven, dan wil je dat n groot genoeg is om voldoende precies te weten welk percentage van alle bedrijven de vraag met ja had willen beantwoorden, resp nee of weetniet, als het bedrijf meegedaan had aan de enquête. Bij voldoende precisie spreek je van succes. Dus n moet zo groot zijn dat de kans op succes minstens 0.95 is. Maar wat noem je voldoende precies?
Ik neem aan dat je tevreden bent als het percentage ja, resp nee of weetniet, met een kans van minstens 0.95 in een interval van lengte 10 zit. Dus een marge van 5 percent te veel of te weinig is voldoende precies.
Dan weet je dat voor minstens achttien van de twintig vragen het percentage ja (resp nee of weetniet) met een kans van minstens 0.9245 ligt tussen x-5 en x+5, waarbij x het percentage in de respons is, bv x=78 %.
Let er ook op dat de greep van n bedrijven uit de stad aselect is mbt de vragen in de enquête.
We gaan nu over tot de berekening van n.
Ik zal het hebben over het antwoord ja, maar bij nee en weetniet gaat het net zo.
Laat, voor zekere vraag in de enquête, Z het aantal responderenden zijn dat ja antwoord. Dus Y:=Z/n is de bijbehorende fractie en X:=100Z/n het bijbehorende percentage.
Laat p het percentage ja-antwoorders in de totale populatie van alle bedrijven in de stad zijn.
Dus q:=p/100 is de bijbehorende fractie.
Een interval van lengte 10 voor p correspondeert met een interval van lengte 0.1 voor q
Z is binomiaal verdeeld met parameters n en q, dus U:=(Z-nq)/Ö(nq(1-q))) is standaardnormaal verdeeld.
U ligt met een kans van 0.95 tussen -1.96 en 1.96, dus Z met een kans van 0.95 tussen nq-1.96Ö(nq(1-q))) en nq+1.96Ö(nq(1-q))), dus bij gegeven uitkomst z ligt q met een kans van 0.95 tussen z/n-1.96Ö(q(1-q)/n)) en z/n+1.96Ö(q(1-q)/n)).
De eis is dus dat 3.92Ö(q(1-q))/n) kleiner is dan 0.1, ofwel dat n groter is dan 1537q(1-q). Als je geen enkele indicatie hebt hoe groot q is, is het veilig aan te nemen dat q(1-q) wel zo groot als 1/4 kan zijn, dus dan moet n minstens 384 zijn om voor een bepaalde vraag uit de enquête een bevredigende respons te hebben.
Dus als de respons n minstens 384 is, dan is de kans minstens 0.9245 dat je voor minstens achttien van de twintig vragen een voldoende precies antwoord krijgt op de vraag hoeveel percent van de bedrijven in de stad de vraag zou beantwoorden met ja, resp nee of weetniet.
Dus n=30 is, bij de (vele) aannamen die ik gemaakt heb, veel te weinig.
De lengte van het betrouwbaarheidsinterval voor q kan dan oplopen tot 3.92*Ö((1/4)/30), dat is maar ietsje minder dan 4/10. Dan weet je bijvoorbeeld (bijna) zeker dat voor een bepaalde vraag het percentage ja-stemmende bedrijven in de stad tussen de 43 en de 83 ligt, en dat is lang niet nauwkeurig genoeg.
Het wordt natuurlijk heel anders als het totaal aantal bedrijven in de stad niet veel groter dan 30 is.

hr

hr
4-10-2007

WisFaq - de digitale vraagbaak voor het wiskunde onderwijs - http://www.wisfaq.nl

#52301 - Steekproeven - Student universiteit