Algebra

Analyse

Bewijzen

De grafische rekenmachine

Discrete wiskunde

Fundamenten

Meetkunde

Oppervlakte en inhoud

Rekenen

Schoolwiskunde

Statistiek en kansrekenen

Telproblemen

Toegepaste wiskunde

Van alles en nog wat


\require{AMSmath}

Correlatiecoefficient bij horizontale puntenwolk

Als ik een puntenwolk heb waar ik met lineare regressie de lijn door bereken, wordt de lijn iets met y = (heel klein getal)* X + constante. De lijn wordt dus eigenlijk bijna Y = constante. r2 is voor mijn lijn erg laag en nu vraag ik me af of ik met zekerheid kan zeggen dat a in y=ax+b inderdaad nul is. Bestaat er een r2 voor y=b??? Als je een perfecte rechte lijn hebt, met weinig afwijking, maar er is geen verband tussen y en x (y constant zelfs als x verandert), wat zou dan r2 zijn??

Karin
Iets anders - woensdag 22 december 2004

Antwoord

Als u een (goed gespecificeerd) lineair regressiemodel Y = aX+b hebt, dan zijn de kleinste-kwadratenschatters van a en b ZUIVER, dat wil zeggen dat hun verwachtingswaarde inderdaad a (resp b) is.
(Als men het hele experiment telkens met evenveel waarnemingen herhaalt, zullen de kk-schattingen gemiddeld a (resp b) zijn.)
De variantie (ONNAUWKEURIGHEID) van de schatter van a wordt echter groter naarmate zij op minder waarnemingen (x,y) gebaseerd wordt, en naarmate de variantie van X kleiner is.
(Als men het experiment herhaalt, varieren de kk-schattingen sterker naarmate ... etc.)
Concreet betekent dit, dat als men een lange gestrekte horizontale puntenwolk met veel punten heeft, de schatting a=0 waarschijnlijk dicht bij de waarheid is. Maar als de puntenwolk rond is met weinig punten, en de schatting van a is toevallig 0, dan zegt dat niet zo veel.
De schatter voor a is r*SY/SX. Dus de absolute waarde van de schatting voor a kan klein zijn omdat Y in de steekproef weinig varieert, of X juist veel, of omdat de absolute waarde van r klein is.
De getalwaarde van r2 is een aanwijzing van het gedeelte van de variantie in Y dat door de variantie in X wordt verklaard en voor de mate waarin de puntenwolk past bij de geschatte theoretische echte regressielijn, en dit des te meer naarmate het aantal waarnemingen groter is.
(De theoretische geschatte lijn valt hoogst waarschijnlijk niet helemaal samen met de schattende berekende lijn.)
Dus als u veel punten hebt en een grote aanpassing van de punten aan de theoretische lijn, dan zal r2 ongeveer 1 zijn. (Maar wat is "groot".)
Bij u is r2 echter bijna 0. Als u veel punten (waarnemingen) hebt, wijst dat op weinig oorzakelijk verband tussen X en Y.
Tegelijk kan de schatter die "a ongeveer 0" geeft, heel nauwkeurig zijn. Bijvoorbeeld, in een dorp staan de huizen ongeveer in een cirkel rond de kerk. Y is de afstand van een huis tot de kerk en X de afstand van een vogeltje tot de kerk. X varieert veel, Y weinig, en er is weinig oorzakelijk verband. De correlatiecoefficient is bijna 0, en de schatter met veel waarnemingen die meestal ongeveer a=0 geeft, is nauwkeurig.
Zekerheid bestaat in de statistiek echter doorgaans helemaal niet.

hr
woensdag 22 december 2004

©2001-2024 WisFaq