Algebra

Analyse

Bewijzen

De grafische rekenmachine

Discrete wiskunde

Fundamenten

Meetkunde

Oppervlakte en inhoud

Rekenen

Schoolwiskunde

Statistiek en kansrekenen

Telproblemen

Toegepaste wiskunde

Van alles en nog wat


\require{AMSmath}

 Dit is een reactie op vraag 11337 

Re: Theorie van Bayes

De zoekmachine Google gebruikt de stelling, staat in verschillende artikelen, ook om zoektermen te filteren. Bij andere zoekmachines komen andere bedrijven/websites boven in de lijst te staan zonder dat ze met de zoekterm te maken hebben.

Nu zou ik graag willen weten of er een logische verklaring is om de stelling toe te passen. De stelling heeft dus vaste waarden nodig maar ik snap niet hoe Google die berekent aan de hand van zoektermen.

Met vriendelijke groet

Piet d
Ouder - woensdag 21 mei 2003

Antwoord

Met uitspraken als "Google gebruikt de stelling van Bayes" wordt het volgende bedoeld:

Als een Information Retrieval System de gevonden documenten weergeeft kan worden gepoogd de gevonden documenten in een (vermoedelijke) volgorde van belangrijkheid voor de zoekvraag te rangschikken.
Een veelgebruikte methode hiervoor is het zogenaamde Probabilistische model. (Probabilistic Model). Een ander gebruikt model is bijvoorbeeld het vectormodel.

Bij de afleiding van de formule die gebruikt wordt om de relevantie van de gevonden documenten voor de zoekvraag te schatten wordt de formule van Bayes gebruikt.

De motivatie om deze formule te gebruiken is de volgende:
Met deze formule kan men de kans P(A|B) die men wil weten omzetten in de kans P(B|A) die men kan berekenen of schatten.

Hoe werkt dat nu in de praktijk:
Een information retrieval system zal altijd alle documenten waar het toegang toe heeft indexeren. Dat houdt in dat van zo'n document wordt opgeslagen welke woorden het bevat.
Voor het probabilistische model wordt alleen opgeslagen of het woord voorkomt, dus niet hoe vaak. Omdat dit kan gebeuren met nullen en enen (0=niet 1=wel) wordt dit een binair systeem genoemd. Bij andere methoden wordt soms ook opgeslagen hoevaak.
Als je een zoekvraag (query) intikt wordt in feite ook de zoekvraag geindexeerd.
Vervolgens wordt uitgezocht in hoeverre document dat wordt onderzocht relevant is voor de zoekvraag.
Bij veel zoekmachines wordt het zogenaamde Boolean model gebruikt: het document voldoet wel of niet aan de query.
Bij het probabilistische model wordt gepoogd de documenten op volgorde van belangrijkheid voor de zoekvraag te rangschikken.
Voor een uitgebreidere uitleg:

Zie Bayes.doc

hk
donderdag 29 mei 2003

©2001-2024 WisFaq