WisFaq!

\require{AMSmath} geprint op zaterdag 20 april 2024

Lineaire regressie

Waarom is een regressiemodel met minder variabelen altijd een beter model dan een met meer variabelen? En waarom wordt R2 groter naarmate er meer variabelen zijn? Dit zou betekeken dat als je alle mogelijke variabelen gebruikt je een r2=1 krijgt. Maar dat hoeft dan toch geen goed model te zijn?
groet caro

caro
2-4-2007

Antwoord

Dag Caro,

Het grootste deel van deze vraag heb ik al beantwoord. Kun je die niet vinden doordat de database gecrashed is?

In het kort, en om meteen je je laatste vraag te beantwoorden. r2 is de correlatiecoeffiecient tussen je data en de uitkomst van je model. Als je alle mogelijke variabelen gebruikt (en alle relevante variabelen zitten daartussen) zal de uitkomst van je model gelijk zijn aan je data. Dan is r2 inderaad gelijk aan 1.

Maar dat is waarschijnlijk geen goed model omdat je heel veel zinloze variabelen hebt meegenomen. Dus is een model met minder variabelen en ongeveer gelijke r2 beter. Het hang er een beetje vanaf of je vooral je data goed wilt reproduceren of liever wilt begrijpen wat er aan de hand is.

os
3-4-2007


© 2001-2024 WisFaq
WisFaq - de digitale vraagbaak voor het wiskunde onderwijs - http://www.wisfaq.nl

#49966 - Statistiek - Student hbo