Correlatie/regressie-analyse/ toets van Kolmogorov-Smirnov/SPSS
Eerst en vooral: hartelijk dank voor het antwoord op mijn vorige vraag i.v.m. de bivariate normaalverdeling, maar ik ben er jammergenoeg nog niet helemaal uit. Daarom vrees ik dat ik nog eens beroep moet doen op jullie hersencellen die ik blijkbaar ontbeer (ben psychologiestudent en niet zo sterk in statistiek/wiskunde om het met een understatement uit te drukken ;-) ). Ik zal proberen om mijn probleem iets concreter te beschrijven. Voor het empirisch onderzoek van mijn scriptie hanteer ik het volgende, theoretische model: de onafhankelijke variabelen (allen op intervalniveau) zijn respectievelijk A, O, S, GV, GL en E en zouden volgens het model invloed uitoefenen op de afhankelijke variabele I (eveneens intervalniveau). Mijn vragen zijn: 1) In de eerste plaats moet ik de correlaties vaststellen tussen de onafhankelijke variabelen onderling en tussen de onafhankelijke variabelen en de afhankelijke variabele.Voor de bivariate Pearson correlatiecoëfficiënt gelden dus de volgende condities: interval-of rationiveau van de variabelen (is aan voldaan), bivariate normale verdeling en het verband moet lineair zijn. Als ik het antwoord op mijn vorige vraag goed begrepen heb, kan de toets van Kolmogorov-Smirnov nagaan of een enkele variabele normaal verdeeld is, maar bestaat er (nog) geen toets om na te gaan of er sprake is van een bivariate normale verdeling. Wat moet ik nu precies doen om vast te stellen of de Pearson's correlatiecoëfficiënt gebruikt mag worden? Kan ik bv. volstaan met het door SPSS laten genereren van spreidingsdiagrammen om te kijken of het verband tussen twee variabelen lineair is en indien dit niet het geval is, gebruik maken van de Spearman correlatiecoëfficiënt? 2) Om na te gaan in welke mate de onafhankelijke variabelen (A, O, S, GV, GL en E) bijdragen aan de "verklaring" van de afhankelijke variabele (I), zou ik regressie-analyse moeten toepassen.Welke onafhankelijke variabelen moet ik nu aan de regressievergelijking toevoegen? Enkel de variabelen die significant correleren met de afhankelijke variabele en dan kijken of ze significant bijdragen aan de "verklaring" van de afhankelijke variabele (met de methode "FORWARD" in SPSS)? Als de verbanden tussen de onafhankelijke variabelen en de afhankelijke variabele niet allemaal lineair zijn, kan ik dan i.p.v. lineaire regressie logistische regressie toepassen? Graag een suggestie a.u.b. Zonder veel nadenken heb ik met de methode "FORWARD" alle variabelen ingevoerd en kreeg heel vreemde resultaten die ik niet kon interpreteren. Een variabele die niet significant zeer zwak correleerde met de afhankelijke variabele, werd bv. wel opgenomen in de lineaire regressievergelijking en droeg plots significant bij aan de verklaring van de afhankelijke variabele. Kunnen jullie mij aub uit deze impasse helpen? Bedankt en vriendelijke groet!
Koen
P.S. Een dikke pluim voor jullie en jullie site; ik wist niet dat wiskundigen zulke aardige mensen waren ;-)
koen
Student universiteit - maandag 4 augustus 2003
Antwoord
1) Kijk even of inderdaad alle variabelen beschouwd kunnen worden als trekkingen uit een normale verdeling, dan de correlatiematrix berekenen tussen onafhakelijke variabelen onderling. Vergeet dat bivariate normale karakter maar, dat kun je toch niet toetsen. Met een Normal Plot kun je wel zien of de afzonderlijke variabelen redelijk normaal verdeeld zijn. Hiermee toets je echter niet. Volgens mij wordt bij de NP plot automatisch de KS uitgevoerd. Die kun je dan nog wel gebruiken. Over die normale verdelingen bij de afzonderlijke variabelen zou ik overigens niet al te veel inzitten, dat verhaal acht ik van ondergeschikt belang. Of je met Spearman (=RANGCORRELATIE) moet gaan werken betwijfel ik, dat levert namelijk niets op in de verdere context. 2) Dat is natuurlijk het echte verhaal. Wat je het best kunt doen kan ik zo niet zeggen, dan zou ik de data moeten zien. Logistische regressie zou ik maar even in de ijskast zetten. De verklaring van het toevoegen van een zwak correlerende variabele in het model zal er vast zijn. In feite lijkt het alsof je regressievergelijking steeds beter wordt naar mate je meer variabelen toevoegt. Ook al lijken deze variabelen alleen maar ruis te bevatten. Ook hier kunnen alleen de cijfers duidelijkheid brengen.
Ik wil best meekijken naar je dataset. Om te kunnen begrijpen wat er aan de hand is zou je me de dataset en een beknopte onderzoeksopzet moeten sturen. Wanneer je dat wilt doen, moet je me dat even laten weten (nog niets sturen nu !!). Vertel me dan ook even hoeveel tijd je hebt om dit analyse verhaal rond te maken.