Minhash ist ein probabilistisches Verfahren zur Schätzung der Ähnlichkeit zwischen großen Mengen von Daten, insbesondere für die Berechnung der Jaccard-Ähnlichkeit. Die Jaccard-Ähnlichkeit ist definiert als das Verhältnis der Größe der Schnittmenge von zwei Mengen zu der Größe ihrer Vereinigung. Minhash reduziert die Dimensionen der Datenmengen, indem es für jede Menge einen kompakten Fingerabdruck erzeugt, der als Minhash-Wert bezeichnet wird.
Der Prozess funktioniert, indem für jede Menge eine Reihe von Hashfunktionen angewendet wird. Für jede dieser Funktionen wird der kleinste Hashwert der Elemente in der Menge ausgewählt, was als Minhash bezeichnet wird. Dies ermöglicht es, die Ähnlichkeit zwischen zwei Mengen zu approximieren, indem man die Anzahl der übereinstimmenden Minhash-Werte zählt. Der Vorteil von Minhash liegt in seiner Effizienz, da es nicht notwendig ist, die gesamten Mengen zu vergleichen, sondern lediglich die generierten Minhash-Werte.
Starte dein personalisiertes Lernelebnis mit acemate. Melde dich kostenlos an und finde Zusammenfassungen und Altklausuren für deine Universität.