Bij het construeren van beslisbomen wordt gebruik gemaakt van de Gini-index om de onzuiverheid van een knoop aan te duiden. Als men de Gini-onzuiverheid functie plot (ervan uitgaande dat de keuze binair is dan is dat een bergparabool met maximum bij $p=0.5$ en de minima bij $p=0$ en $p=1$ (waarbij $p$ hier op de $x$-as is, immers bij Gini is dat een proportie voor een bepaalde keuze, zeg keuze 0).
We zien dat de onzuiverheid van het minimum bij $p=1$ tot het maximum bij $p=0.5$ minder snel toeneemt dan bij een lineaire functie (tweede afgeleide is negatief). Hierbij zou de resubstitution onzuiverheid functie de lineaire functie kunnen zijn. Volgens de literatuur heeft de Gini de gewenste eigenschap want negatieve tweede afgeleide, en dus daarbij ook de voorkeur. Echter kan ik vervolgens niet vinden/beredeneren waarom dit gewenst is. Kan iemand mij hierbij helpen?
Groeten,
Erik-Jan
Erik-J
Student universiteit - zaterdag 11 september 2021
Antwoord
De vraag is lang onbeantwoord gebleven en dat is omdat er een paar kreten in staan die niet algemeen bekend zijn. De uitleg van Gini-onzuiverheid op deze pagina is nogal summier en zegt mij niet wat die index/onzuiverheid eigenlijk betekent.
Wat ook niet duidelijk is is wat "de gewenste eigenschap" eigenlijk is.
Dat de tweede afgeleide van $x\mapsto x(1-x)$ negatief is klopt, maar dat kan niet het enige criterium zijn; $x\mapsto\sqrt{x(1-x)}$ heeft ook een negatieve tweede afgeleid.