Tf-Idf, kurz für Term Frequency-Inverse Document Frequency, ist eine Methode zur Umwandlung von Text in numerische Vektoren, die in der Informationsretrieval und im maschinellen Lernen weit verbreitet ist. Der Term Frequency (TF) misst, wie oft ein bestimmtes Wort in einem Dokument vorkommt, relativ zur Gesamtanzahl der Wörter im Dokument. Der Inverse Document Frequency (IDF) hingegen quantifiziert, wie wichtig ein Wort ist, indem er die Anzahl der Dokumente, die das Wort enthalten, in Betracht zieht. Diese beiden Maße werden kombiniert, um den Tf-Idf-Wert für ein Wort in einem Dokument zu berechnen:
Dabei ist die IDF definiert als:
wobei die Gesamtanzahl der Dokumente und die Anzahl der Dokumente, die das Wort enthalten, ist. Durch die Anwendung dieser Methode können verschiedene Dokumente in einem Vektorraum dargestellt werden, was eine effektive Analyse und Klassifizierung von
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.