Die Gini Impurity ist ein Maß für die Unreinheit oder Unordnung eines Datensatzes, das häufig in Entscheidungsbaum-Algorithmen verwendet wird, um die Qualität von Splits zu bewerten. Sie quantifiziert die Wahrscheinlichkeit, dass ein zufällig ausgewähltes Element aus dem Datensatz einer falschen Klasse zugeordnet wird, wenn das Element zufällig ausgewählt und die Klasse zufällig vorhergesagt wird. Der Wert der Gini Impurity liegt zwischen 0 und 1, wobei 0 vollständige Reinheit (alle Elemente gehören zur gleichen Klasse) und 1 maximale Unreinheit (alle Klassen sind gleichmäßig verteilt) darstellt.
Mathematisch wird die Gini Impurity für einen Datensatz definiert als:
Hierbei ist der Anteil der Elemente, die zur Klasse gehören, und die Anzahl der Klassen im Datensatz. Ein niedriger Gini-Wert deutet darauf hin, dass der Datensatz homogen ist, während ein hoher Wert auf eine größere Vielfalt der Klassen hinweist. Die Minimierung der Gini Impurity während des Trainingsprozesses von Entscheidungsbäumen hilft, die Trennschärfe der Klassifizierung zu maximieren.
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.