PCA ( principale componenten analyse)
Beste WisFaq goeie site, tof initiatief mijn vraag : Is het mogelijk om een overzichtelijk beeld te geven over PCA (principale componenten analyse) Dit komt uit het deel multiplevariabelen analyse mvg liefst in economische context
Frédér
Student universiteit België - zondag 13 januari 2008
Antwoord
Dag Frédéric,
Ik zie inderdaad niet zo snel een mooie inleiding op het het internet. Een hele beschrijving geven is een beetje veel werk. Ik wil wel wat dingen noemen. Als je dan specifieke vragen hebt hoor ik het wel.
Welnu. PCA gebruik je als je een redelijke hoeveelheid data heb om de belangrijkste bijdragen (principal coponents te vinden). Een typische situatie is dit. Je hebt N metingen gedaan x(1), x(2), ..., x(N). Elk van die metingen bestaat uit een M grootheden x(1) = {x(1,1), x(1,2), ..., x(1,M)}, x(2) = {x(2,1),x(2,3),...,x(2,M)}, etc. Bij voorbeeld je hebt op N tijdstippen en M plaatsen de prijs van een brood gemeten (om maar eens iets economisch te zeggen). Wiskundig gezien heb je dus N vectoren, elk met dimensie M. Je kunt de data ook een een NxM matrix zetten.
Wiskundig gezien ga je bij de PCA proberen de N (x(i)) vectoren zo goed mogelijk te beschrijven met nN (en nM) als een lineaire combinatie van vectoren (u(k)). Dus x(1) c(1)u(1) + c(2)u(c) +...+ c(n)u(n). En net zoiets voor de andere x(i). Naast de vectoren u(k) komen er dus ook een groot aantal coefficienten c(l) bij kijken. Die lineaire combinatie probeer je zo goed mogelijk te maken door het (kwadratisch) verschil tussen de metingen en de benadering zo klein mogelijk te maken.
Om dit te doen bestaat een wiskundige truuk. Die werkt met lineaire algebra en eigenvectoren. Daar ga ik nu maar even niet op in. Als je specifieke vragen hebt hoor ik het wel. Maar, er zitten wel wat bijzondere aspecten aan. Vooral is er geen unieke oplossing. Daarvoor heb je aanvullende informatie nodig. Een eenvoudige aanpak is. Probeer het eerst met n=1, dan met n=2, etc. Als je data goed genoeg beschreven wordt weet je hoeveel componenten er in je data zitten.
Stel dat op de helft van de M plaatsen de prijs altijd hetzelfde is, en in de andere helft ook. Je kunt je gegevens dan perfect beschrijven met twee vectoren. De ene is zoiets als {1,1,1,1,1,0,0,0,0} met enen voor elke van de eerstegenoemde dorpen. De andere is precies andersom {0,0,0,0,0,1,1,1,1}. Bij een PCA zul je dan merken dat je met n=1 een matige beschrijving krijgt en dat met n=2 je data perfect beschreven is. De werkelijkheid is natuurlijk nooit zo mooi. Bovendien zijn er altijd statistische fluctuaties. Maar het is een manier om een idee te krijgen over de hoeveelheid informatie in je data.
Ik hoop dat dit een beetje een idee geeft. En, ik zeg het nog één keer: als je specifieke vragen hebt hoor ik het wel.
Groet. Oscar.
os
zaterdag 19 januari 2008
©2001-2024 WisFaq
|