Voor mijn afstudeerstage ben ik bezig met een onderzoek waarbij ik gegevens uit twee verschillende populaties met elkaar moet vergelijken. Ik wilde hierbij graag berekenen of de verschillen in de gevonden waarden statistisch significant zijn. Nu zit ik met twee problemen:
1. Het is voor mij niet geheel duidelijk of mijn steekproevenverdeling normaal verdeeld is. Ik lees nl. in het handboek van SPSS (een van de computerprogramma's waarmee ik werk) dat er sprake van een normale verdeling is indien de variabele in de gehele populatie normaal verdeeld is (dat wil toch zeggen dat het een Gausse-kromme moet zijn?) of indien de steekproefomvang voldoende groot is (meer dan 30 cases per groep). Nu voldoen mijn gegevens niet aan een Gausse-verdeling, wel heb ik meer dan 30 cases per groep. Ik vraag me af of ik nu wel of niet van een normaalverdeling mag spreken, omdat ik dat getal van 30 zo uit de lucht vind komen vallen en omdat ik met andere berekeningsmethoden in SPSS (zoals het maken van een "normal probability plot") tot de conclusie moet komen dat mijn gegevens niet normaal verdeeld zijn. Hoe kan ik er nu achter komen of ik mijn gegevens mag behandelen als normaal verdeeld of niet?
2. Als mijn gegevens normaal verdeeld zijn, kan ik middels de t-toets voor twee onafhankelijke variabelen berekenen of mijn uitkomsten statistisch significant verschillen. Welke toets moet ik nu gebruiken als mijn gegevens niet normaal verdeeld zijn. Zelf dacht ik aan de Mann-Whitney-toets. Klopt dat?
Hopelijk heeft u de antwoorden op mijn vragen en kunt u me zo wat verder helpen.
In ieder geval bedankt!Sanne Wolf
25-6-2002
Beste Sanne,
Je wilt twee groepen met elkaar vergelijken. Als je daarvoor de t-toets neemt dan vergelijk je in feite het gemiddelde van de ene groep met het gemiddelde van de andere groep. Het gemiddelde is een goede maat voor de vergelijking als inderdaad de de groepen min of meer normaal verdeeld zijn. Of in ieder geval per groep, moet het volgende gelden: de waarden liggen redelijk symmetrisch rond het gemiddelde en de spreiding per groep is "ongeveer" gelijk. Dit kun je ook controleren door per groep een plaatje van de verdeling van de data te maken.
Zowieso is dat altijd een goed idee om eerst plaatjes van je data te maken. Dan krijg je gevoel voor de data die je verzameld hebt.
Waarom heeft SPSS het over meer dan 30 waarnemingen per groep? Wel, er is een wet in de Statistiek die zegt dat het GEMIDDELDE van een groep waarnemingen, als het aantal waarnemingen maar groot genoeg is, bij benadering normaal verdeeld is (centrale limietstelling). En ja, dan heeft men als vuistregel 30 waarnemingen. Dat is ook wel enigzins uit de lucht gegrepen, meer een soort ervaringsfeit.
Wat je beter kan doen is, zoals je zelf al aangeeft, ook een Mann-Wittney toets doen. Deze toets vergelijkt niet het gemiddelde van twee groepen maar de mediaan. De mediaan van een groep is de middelste waarneming. De mediaan is een maat die veel minder vatbaar is voor uitschieters (bijv. de mediaan van 1, 4, 5, 7, 10 is 5; maar ook geldt dat de mediaan van 1, 4, 5, 7, 100 gelijk is aan 5). Als je nu uit de t-toets en de Mann-Wittney toets hetzelfde kan concluderen (bijv. beide hebben een p-waarde onder de 0.05, conclusie: beide groepen zijn verschillend) dan heb je de beste situatie. Anders zou ik alleen op de Mann-Wittney toets afgaan. Dat is de meest veilige weg, naast gewoon wat plaatjes van de verdeling van de groepen.
Met normal normality plot kun je enigszins zien of je waarnemingen normaal verdeeld zijn. Waarschijnlijk geeft SPSS er ook nog wel een of andere toets bij die aangeeft (met een p-waarde) of je er voldoende vertrouwen in kan hebben of je waarnemingen normaal verdeeld zijn. Je moet kijken of er enigszins een rechte lijn als plaatje is. Het is natuurlijk de vraag: wanneer is de lijn recht en wanneer niet. Dat blijft subjectief.
Groeten,
Martijn
mg
26-6-2002
#3760 - Statistiek - Student universiteit