Wel of geen verschil?
Ik heb bij verschillende internetproviders gemeten of ze wel of niet bepaalde metingen doorlieten, een Bernouilli-experiment dus. Sommige providers hebben dat vaker wel dan niet gedaan, anderen juist andersom. Als mijn metingen slecht uitgevoerd waren en de resultaten dus onafhankelijk van de provider waren, dan zouden de aantallen "niet" en "wel" per provider niet veel verschillen. Bij goede metingen liggen ze juist ver uit elkaar.
Wat kan ik met statistiek zeggen over de vraag of ik met onzin of juist zinvolle metingen te maken heb?
Hieronder op verzoek aanvullende informatie:
Dit is het project waar het om gaat: open.internet.nl
Het gaat om 8 verschillende soorten tests, waar steeds aparte software is geschreven. Er zijn tegen de 60.000 tests uitgevoerd, die per test en per provider te onderscheiden zijn. Als goede metingen definieer ik de resultaten die het resultaat zijn van tests met correct functionerende software, als slechte metingen van software die bugs vertoont.
Verder kan ik wat veronderstellen omtrent de uitkomsten. Indien providers op netwerkniveau bepaalde zaken niet doorlaten, dan zijn de omstandigheden op dat punt bij iedere meting gelijk en zouden bij de corresponderende goede metingen de overgrote meerderheid van de metingen de waarde nul moeten vertonen. Omgekeerd, indien een provider hetzelfde wel doorlaat, dan zouden bij de corresponderende goede metingen de overgrote meerderheid van de metingen de waarde 1 moeten vertonen.
En als je een binomiaal verdeling veronderstelt, dan geldt P(k) = (n over k)*(p tot de macht k) * (q tot de macht n). Kunnen we het dan niet omdraaien? M.a.w. kan ik met het resultaat voor een provider: 24 positieve en 790 negatieve metingen niet p en q uitrekenen? En wat is nu de betekenis van p en q?
Alexan
Iets anders - zondag 20 april 2014
Antwoord
Beste Alexander, Allereerst jouw laatste vraag, deze is het meest concreet. Bij een binomiaal experiment is p de kans op succes (in jouw geval: een positief resultaat) en q is de kans op mislukking (een negatief resultaat dus). Omdat er slechts twee mogelijke uitkomsten zijn, geldt automatisch: p+q=1. Je hebt 24 positieve en 790 negatieve resultaten (totaal dus: 814 waarnemingen). Hieruit bereken je: p = 24/814 = 0,295 Maar omdat dit een statistich experiment is, is dit een schatting van p. Immers, bij een volgend experiment zal je vast een ander aantal positieve resultaten vinden, met weer een nieuwe schatting van p. Je kunt wel een interval aangeven waarin de werkelijke waarde van p met een zekere betrouwbaarheid ligt. Met onderstaand hulpje kan je berekenen dat, wanneer in werkelijkheid geldt: p$<$0,020, je slechts 2,5% kans zou hebben op jouw utkomst: Hetzelfde geldt voor p$>$0,0435. Je kunt dus met een betrouwbaarheid van 95% stellen: 0,020$<$p$<$0,035 (p tussen 2% en 4,4%). Dan de software die al dan niet bugs bevat. Ik heb me niet inhoudelijk verdiept in dit specifieke project, maar het lijkt me dat je geen zinnige metingen kunt doen met ondeugdelijke software. De uitkomsten van ondeugdelijke software hoeven niets te zeggen over het verschijnsel dat je wilt meten. Het lijkt me dat je resultaten van slechte software moet negeren en alleen conclusies kunt trekken uit resultaten die correct verkregen zijn. Of gaat het er juist om om de software te testen? Dan moet je juist metingen uitvoeren waarbij je van tevoren weet wat de relatie is tussen 'wat je erin stopt en wat eruit hoort te komen'. Hoe dan ook, wanneer je met behulp van statistiek uitspraken wilt doen over een verschijnsel, dan kan dat pas wannneer je een concrete vraagstelling hebt waarvan je (theoretisch) kunt onderbouwen dat de uitkomst iets zinnigs zegt over wat je wilt onderzoeken. Zo'n vraagstelling kan bijvoorbeeld zijn:
- Is het aantal positieve resultaten bij provider A significant groter dan bij provider B? of:
- Is het aantal positieve resultaten bij provider A significant groter dan het aantal negatieve resultaten?
enz. Hopelijk helpt dit.
vrijdag 25 april 2014
©2001-2024 WisFaq
|