Steekproef bepaling bij verificatie en audit van computers ed
Bij een ICT afdeling van een bedrijf vraagt men zich af of de gegevens die over computers e.d. (wordt ook wel Configuration Item, of CI genoemd) geregistreerd staan, overeenkomen met de werkelijkheid. Hiervoor willen ze mij graag een verificatie onderzoek doen. Nu heb ik de volgende redenering gebruikt uit alle FAQ's die ik hier en op andere plekken heb gelezen:
Er zijn bijna 3000 CI's, dus trekt men een aselecte steekproef. De steekproefgrootte wordt als volgt bepaald:
Eindige populatie: Vervolgens wordt n0 gecorrigeerd (vermenigvuldigd) met:
N/n+N-1 Oftewel N/(n+N-1) Omdat het een eindige populatie betreft.
Waarbij: p=98%, omdat uit eerder onderzoek gebleken is dat de geregistreerde gegevens in zo'n 98% van de gevallen overeenkomen met de werkelijkheid a=3% de nauwkeurigheidsmarge z=1,96 de betrouwbaarheid van de test moet 95% zijn N=3000 er zijn in totaal 3000 CI's
Hieruit blijkt dat er 81 configuratie items gecontroleerd moeten worden om met 95% betrouwbaarheid en binnen een marge van +/-3% een uitspraak te kunnen doen over hoe goed de gegevens geregistreerd zijn. Nu is het een kleine stap om in Excel deze berekeningen voor verschillende waarden te herhalen:
Hieruit maak ik op (zeg, conclusie) dat wanneer de nauwkeurigheidsmarge groter wordt, het eigenlijk steeds minder uitmaakt. Dat wil zeggen, of ik nou 30 of 21 CI's moet gaan controleren, dat maakt niet veel meer uit. De grote verschillen zitten in de lagere nauwkeurigheids marges. Is mijn redenering (formulegebruik) juist, gebruik ik de juiste parameters (is 98% gebaseerd op eerder onderzoek bijvoorbeeld wel juist, of moet ik 50% gebruiken?) en zo ja, klopt dan vervolgens mijn conclusie?
Vincen
Student hbo - woensdag 1 augustus 2007
Antwoord
Beste Vincent, Je berekening klopt,ook het gebruik van de parameters 2 en 98 %.Officieel zou je de resultaten naar boven moeten afronden, dus 81 (eigelijk iets meer) wordt 82.Belangrijker is echter dat je moet bedenken welke conclusie je wil trekken uit je onderzoek! Een nauwkeurigheidsmarge van 3% wil zeggen dat je bij een een resultaat van bijvoorbeeld 5% (2+3) nog net zou concluderen dat de steekproef niet significant afwijkt van de verwachting. Toch is dan het aantal gegevens die niet kloppen met de werkelijkheid meer dan verdubbeld! Dat zou natuurlijk kunnen wijzen op een niet onbelangrijke tendens tot een minder goede registratie! Als je daar in bent geinteresseerd kan je kijken naar "relative risk" berekeningen. (zie bij de rubriek samengevat: Kennisbasis Statistiek.)
Wat betreft de toepasbaarheid van je berekenignen: Deze zijn gebaseerd op een binomiale kansverdeling, maar om de betrouwbaarheids intervallen te berekenen gaat het uit van een normale verdeling. Dat wijkt maar weinig af van de werkelijke betrouwbaarheid als de kans p niet al te klein of al te groot is. Een vuistregel om te bepalen of het niet al te veel afwijkt is: np en n(1-p) mogen niet kleiner zijn dan 5. In jouw geval, met n=81 en p=0,02, dus np=1,62 is dat wel het geval! Toch valt de fout die je daarmee maakt nog wel mee, maar met deze aantallen kan je natuurlijk ook gewoon de kans met een binomiale verdeling berekenen!
Nu een verklaring van jouw conclusie: Zonder correctie voor een eindige populatie: n is omgekeerd evenredig met a2, dus als a van 2 naar 1% gaat,dan wordt n 4 maal zo groot! Gaat hij van 6 naar 5%, dan wordt n 1,44 keer zo groot. Bovendien zijn de waarden van n dan kleiner,zodat het absolute verschil nog weer kleiner is dan bij de overgang van 2 naar 1%.
Heb je nog vragen, aarzel dan niet, of probeer vragen over statistiek bij het forum van Kennisbasis Statistiek. Groet, ldr.