\require{AMSmath}
WisFaq - de digitale vraagbaak voor wiskunde en wiskunde onderwijs


Printen

De Gini-index bij beslisbomen

Hallo,

Bij het construeren van beslisbomen wordt gebruik gemaakt van de Gini-index om de onzuiverheid van een knoop aan te duiden. Als men de Gini-onzuiverheid functie plot (ervan uitgaande dat de keuze binair is dan is dat een bergparabool met maximum bij $p=0.5$ en de minima bij $p=0$ en $p=1$ (waarbij $p$ hier op de $x$-as is, immers bij Gini is dat een proportie voor een bepaalde keuze, zeg keuze 0).

We zien dat de onzuiverheid van het minimum bij $p=1$ tot het maximum bij $p=0.5$ minder snel toeneemt dan bij een lineaire functie (tweede afgeleide is negatief). Hierbij zou de resubstitution onzuiverheid functie de lineaire functie kunnen zijn. Volgens de literatuur heeft de Gini de gewenste eigenschap want negatieve tweede afgeleide, en dus daarbij ook de voorkeur. Echter kan ik vervolgens niet vinden/beredeneren waarom dit gewenst is. Kan iemand mij hierbij helpen?

Groeten,

Erik-Jan

Erik-J
Student universiteit - zaterdag 11 september 2021

Antwoord

De vraag is lang onbeantwoord gebleven en dat is omdat er een paar kreten in staan die niet algemeen bekend zijn. De uitleg van Gini-onzuiverheid op deze pagina is nogal summier en zegt mij niet wat die index/onzuiverheid eigenlijk betekent.

Wat ook niet duidelijk is is wat "de gewenste eigenschap" eigenlijk is.

Dat de tweede afgeleide van $x\mapsto x(1-x)$ negatief is klopt, maar dat kan niet het enige criterium zijn; $x\mapsto\sqrt{x(1-x)}$ heeft ook een negatieve tweede afgeleid.

kphart
maandag 25 oktober 2021

©2001-2024 WisFaq