Hallo,
Voor mijn thesis moet ik heel wat regressies doorvoeren. Ik heb bovendien telkens veel afhankelijke variabelen. Ik moet de interessantste variabelen, (dusja, de meest significante) gebruiken om dan vergelijkingen op te stellen. Ik vraag me af waar de t-waarde moet bij aansluiten (absolute waarde ervan?) en wanneer een F waarde significant is. Er moet dan ook rekening gehouden worden met de R2 waarde..dacht ik. Hoe past het hele verhaal samen?
Met dank, LaurenceLaurence
20-1-2004
Laurence,
R2 geeft een maat voor de verklaarde variatie en is maximaal 1. In principe geldt dus dat een hogere R2 aangeeft dat het gehele gespecificeerde model beter past op de data. R2 is echter afhankelijk van het aantal gebruikte onafhankelijke variabelen: hoe hoger dat aantal, hoe hoger de R2. Hiervoor bestaat de 'gecorrigeerde R2' die onafhankelijk is van het aantal verklarende variabelen en door de meeste regressiesoftware wordt gegeven; hiermee kun je dus verschillende modelspecificaties onderling vergelijken. Een andere test op deze 'goodness-of-fit' is de F-toets, ook deze houdt rekening met het aantal verklarende variabelen en het aantal observaties en kan dus worden gebruikt om verschillende modellen en verschillende datasets met elkaar te vergelijken. Voor de F-grootheid zijn tabellen beschikbaar waarmee je de significantie kunt bepalen. Een niet-significante F-grootheid (d.w.z. een significantieniveau onder jouw onbetrouwbaarheidsdrempel) wil (kort geformuleerd) zeggen dat het model van onafhankelijke variabelen zo goed als niets verklaart van de variatie van de afhankelijke variabele, oftewel dat het model niet wordt ondersteund door de gebruikte empirische data.
De t-waarde is een standaardnormaal verdeelde grootheid die de betrouwbaarheid van de schatting van één individuele coëfficiënt weergeeft, anders gezegd de waarschijnlijkheid dat deze coëfficiënt niet gelijk is aan 0 en dat de betreffende verklarende variabele dus iets toevoegt aan de verklaring van de variatie van de verklaarde variabele; de significantie hiervan bepaal je dus met de standaardnormale verdeling (overigens berekenen de meeste regressieprogramma's de significantie automatisch voor je).
Over het algemeen is het echter geen goed idee om de keuze van modelspecificatie (vorm, zoals lineair, kwadratisch, exponentieel, dubbelexponentieel, etc., maar ook keuze voor al dan niet opnemen van zekere verklarende variabelen) af te laten hangen van de statistische significantie. In bijvoorbeeld de econometrie en psychometrie is dit zelfs absoluut 'not done'. Een betere aanpak zoals daar wordt gehanteerd is het toetsen van de validiteit van een zekere modelspecificatie (zoals geconstrueerd op basis van de economische of psychologische theorie) door haar 'los te laten' op enkele datasets en te bepalen of deze specificatie door deze empirische datasets wordt ondersteund. Als je verklarende variabelen opneemt en weglaat zuiver op basis van hun statistische significantie loop je steeds het risico toevalligheden in het model te introduceren die in de dataset zitten vanwege het feit dat de dataset is samengesteld voor een ander doel dan het model dat je wilt opstellen.
Gebruik een dataset om een model te toetsen aan de werkelijkheid, maar niet om een model te bouwen!
Ik wens je veel succes met je thesis en dank JaDeX hartelijk voor zijn verduidelijkende aanvullingen.
KLY
28-1-2004
#19173 - Statistiek - Student universiteit België