Cross-Entropy baut auf der Idee der Entropy auf und misst, wie gut eine Wahrscheinlichkeitsverteilung (z. B. die Vorhersagen eines Modells) mit der tatsächlichen Verteilung (den echten Labels) übereinstimmt.
Beispiel:
Ein Modell sagt vorher, wie wahrscheinlich etwas ist, z. B.:
- Ein Modell soll vorhersagen, ob ein Bild eine Katze (Label: 1) oder keine Katze (Label: 0) zeigt.
- Wenn das Modell sehr sicher ist (z. B. sagt: 90 % Wahrscheinlichkeit für „Katze“), und es stimmt, dann ist der Fehler gering.
- Wenn das Modell unsicher ist (z. B. sagt: 50 % Wahrscheinlichkeit für „Katze“) oder falsch liegt, ist der Fehler hoch.
Cross-Entropy misst diesen Fehler zwischen den vorhergesagten Wahrscheinlichkeiten und den tatsächlichen Labels.
Cross-Entropy wird verwendet, um:
- Unsicherheit zu bestrafen: Wenn das Modell eine falsche Vorhersage macht oder unsicher ist, wird ein höherer Fehlerwert erzeugt.
- Genaue Vorhersagen zu belohnen: Wenn das Modell sehr sicher ist (z. B. eine hohe Wahrscheinlichkeit für die richtige Klasse), ist der Fehler gering.
Es hilft Modellen, schneller zu lernen, indem es ihnen beibringt, realistische Wahrscheinlichkeiten vorherzusagen.
Mathematische Sicht:
Die Cross-Entropy wird berechnet als:
- Für ein korrektes Label bestraft die Cross-Entropy, wenn y^ klein ist (d. h. die Wahrscheinlichkeit für die richtige Klasse ist niedrig).
- Für ein falsches Label bestraft sie, wenn y^ groß ist (d. h. das Modell gibt der falschen Klasse zu hohe Wahrscheinlichkeit).
Beispiel mit zwei Klassen
- Wahre Klasse: y=1 (z. B. Katze)
- Modellvorhersage: y^=0.9
- Cross-Entropy: H=−1⋅log(0.9)=0.105 (geringer Fehler, gute Vorhersage).
Aber wenn das Modell unsicher ist, z. B. y^=0.5, dann:
H=−log(0.5)=0.693 (höherer Fehler, weil das Modell unsicher ist)
Mehrere Klassen
In Aufgaben mit mehreren Klassen (z. B. Hund, Katze, Vogel), wird die Cross-Entropy über alle Klassen summiert, wobei der Schwerpunkt auf der Wahrscheinlichkeit für die richtige Klasse liegt.
Zusammenhang
Entropy misst die Unsicherheit in Daten.
Cross-Entropy misst, wie gut die vorhergesagten Wahrscheinlichkeiten eines Modells mit den wahren Labels übereinstimmen.
Sie ist ein beliebtes Loss-Function-Maß in maschinellem Lernen, weil sie Modelle dazu anregt, möglichst genaue und sichere Wahrscheinlichkeiten vorherzusagen.