F-test bij hoge kurtosis
Beste,
Voor mijn scriptie onderzoek ik het effect van bepaalde parameters op het energieverbruik. Hiervoor maak ik gebruik van R studio waarin ik de parameters test op significantie.
Mijn dataset heeft echter een grote skewness en kurtosis waardoor er niet aan de aannames van lineaire regressie wordt voldaan (tenminste dat denk ik te concluderen uit onder anderen het qq plot). Dit heb ik geprobeerd op te lossen door een transformatie (10log) te doen van de afhankelijke variabele.
Mijn skewness is nu kleiner dan 1 geworden en ook mijn kurtosis is afgenomen, maar die laatste blijft rond de 4 liggen (eerst was de kurtosis ongeveer 30). Als ik de residuals van de regressie plot, lijken de aannames iets beter te kloppen, maar er lijkt nog steeds sprake van 'fat tails' (iniedergeval meer uitschieters dan de normaal verdeling).
Ik ben alleen geïnteresseerd in de F-test (dus of een model met parameters beter of niet significant beter presteert dan een model zonder parameters). In hoeverre is het hiervoor belangrijk dat er aan alle aannames is voldaan? Is hier de transformatie voor nodig of is het zelfs met de transformatie nog niet mogelijk om goede conclusies te trekken uit de F-test? En als dit laatste het geval is, hoe kan ik dan de significantie van de parameters testen?
Alvast bedankt:)
Siebe
Student universiteit - donderdag 9 juni 2022
Antwoord
Poeh, een lastige vraag. Ik heb geen pasklaar antwoord voor je. Ik probeer dus even te brainstormen anders ben ik bang dat deze vraag blijft staan.
"ik onderzoek het effect van bepaalde parameters op het energieverbruik".
Op voorhand moet je als onderzoeker dan de volgende vragen stellen:
1. Welke van de parameters (verklarende variabelen) dragen bij tot de verklaring van het energiegebruik. Hiervoor kun je stepwise regressie gebruiken. Wellicht doe je dat ook gezien de opmerking over die F-test. Het gaat dus niet zozeer over die F-test maar meer over de stepwise regressie. Zit er trouwens ook een method forward regression in R? Dan zou ik die zelf eerder proberen.
2. Hoe goed is de hele set in staat om het energiegebruik te verklaren. Dan kijk je naar het percentage verklaarde variantie. Die zie ik niet terugkomen.
3. Zijn er blijkbaar onderliggende variabelen die ik vergeten ben? Een lage verklaarde variantie kan daarvoor een indicator zijn.
Voor de beeldvorming kan je simpel starten. Even van alle verklarende variabelen los de correlatie met de afhankelijke variabele energieverbruik vaststellen en kijken wat er gebeurt. Misschien moet je dan al een aantal variabelen overboord gooien.
Nu de opmerkingen:
Jouw qq plot laat zien in hoeverre jouw verdeling afwijkt van een normale verdeling. Dat zegt op zichzelf niets over de bruikbaarheid van lineaire regressie.
Een dataset is nooit scheef of gewelfd. Ik neem aan dat je hier het energiegebruik bedoelt. Die scheefheid is niet vreemd. Dat kan je van tevoren verwachten.
Voor zover ik weet zijn scheefheid en welving op voorhand geen beletsel voor het uitvoeren van lineaire regressie. Naar mijn weten is normaliteit ook geen voorwaarde. Sterker nog als je kijkt naar woonhuizen dan is de verklarende variabele inhoud vast en zeker ook scheef en gewelfd en dat zou in een regressiemodel best goed kunnen matchen met energieverbruik. Wel voorwaarde is dat alle variabelen een interval/ratio schaal hebben. Nou ja een enkele nominale zou ik nog wel accepteren.
Alleen die 10log transformatie op de afhankelijke variabele (energieverbruik) uitvoeren is discutabel. Wellicht zou je dat dan ook weer op een aantal verklarende variabelen moeten toepassen. Dat is dan toch trial and error. Zelf ben ik daar heel terughoudend mee.
Kijk verder bij het sleutelen goed naar wat de verklaarde variantie doet. Het blijft toch wel een kwestie van proberen.
Met vriendelijke groet JaDeX
vrijdag 10 juni 2022
©2001-2024 WisFaq
|