Graag had ik geweten wat de Mahalanobis-afstand is en waarvoor deze precies gebruikt wordt. Wat is het verband tussen deze afstand en de quantielen van een chi-kwadraatdistributie? Bedankt
Tim
Student universiteit - zaterdag 19 april 2003
Antwoord
Deze afstand wordt in ieder geval gebruikt in de multivariate technieken zoals multiple regressie maar met name in discriminantanalyse en clusteranalyse.
De maat wordt gebruikt om de afstand tussen twee puntenclusters weer te geven. De Mahalanobisafstand is een uitbreiding van de euclidische afstand. Maar wat doet die uitbreiding eigenlijk? Ofwel hoe iets moeilijks uit te leggen op een beetje begrijpelijke manier. Over formules zal ik het niet hebben, die zijn behoorlijk lastig. Verder geen garantie bij de beschrijving van wat de techniek nu echt doet..... ik zal niettemin een poging wagen:
De Mahalanobis afstand is een maat voor de afstand tussen twee puntengroepen, het is niet de enige maat er zijn er veel meer zoals de normale Euclidische afstand.
In het bovenstaande plaatje stellen de figuren puntenwolken voor. De puntenwolken in het linkse figuur zijn cirkelvormig. We kunnen daar de afstand tussen deze twee puntenwolken makkelijk definieren als de afstand tussen de centra (de middelpunten van de cirkels). Dat zouden we aan de rechterkant met de ellipsvormige puntenwolk ook wel kunnen doen maar is dat wel optimaal? Wanneer de X2 variabele bijvoorbeeld de prijs in euro's zou zijn en we veranderen dit naar guldens zouden de cirkels ellipsen worden. Maar het verband blijft hetzelfde. De euclidische afstand tussen de twee groepen zou daardoor echter toenemen.
Volgens mij kan de rechter figuur uit de linker ontstaan door het gebruiken van een andere schaal op een variabele in combinatie met aanwezige onderlinge correlaties. Welnu, de Mahalanobisafstand bevat een standaardisatie waarbij gekeken wordt vorm van de puntenwolken (dus op basis van spreiding en onderlinge correlatie). Door deze standaardisatie wordt bij de rechter figuur feitelijk een afstand verkregen die meer overeenkomt met de afstand in de linker figuur. (ps. de rechter ellipsen hadden eigenlijk wat verder van elkaar getekend moeten worden).
Een link met de chi-kwadraat verdeling is mij onbekend.