WisFaq!

\require{AMSmath} geprint op zondag 28 april 2024

De Gini-index bij beslisbomen

Hallo,

Bij het construeren van beslisbomen wordt gebruik gemaakt van de Gini-index om de onzuiverheid van een knoop aan te duiden. Als men de Gini-onzuiverheid functie plot (ervan uitgaande dat de keuze binair is dan is dat een bergparabool met maximum bij $p=0.5$ en de minima bij $p=0$ en $p=1$ (waarbij $p$ hier op de $x$-as is, immers bij Gini is dat een proportie voor een bepaalde keuze, zeg keuze 0).

We zien dat de onzuiverheid van het minimum bij $p=1$ tot het maximum bij $p=0.5$ minder snel toeneemt dan bij een lineaire functie (tweede afgeleide is negatief). Hierbij zou de resubstitution onzuiverheid functie de lineaire functie kunnen zijn. Volgens de literatuur heeft de Gini de gewenste eigenschap want negatieve tweede afgeleide, en dus daarbij ook de voorkeur. Echter kan ik vervolgens niet vinden/beredeneren waarom dit gewenst is. Kan iemand mij hierbij helpen?

Groeten,

Erik-Jan

Erik-Jan
11-9-2021

Antwoord

De vraag is lang onbeantwoord gebleven en dat is omdat er een paar kreten in staan die niet algemeen bekend zijn. De uitleg van Gini-onzuiverheid op deze pagina is nogal summier en zegt mij niet wat die index/onzuiverheid eigenlijk betekent.

Wat ook niet duidelijk is is wat "de gewenste eigenschap" eigenlijk is.

Dat de tweede afgeleide van $x\mapsto x(1-x)$ negatief is klopt, maar dat kan niet het enige criterium zijn; $x\mapsto\sqrt{x(1-x)}$ heeft ook een negatieve tweede afgeleid.

kphart
25-10-2021


© 2001-2024 WisFaq
WisFaq - de digitale vraagbaak voor het wiskunde onderwijs - http://www.wisfaq.nl

#92665 - Statistiek - Student universiteit