Knowledgebase
Sublime Message Groups
In Sublime werden identische, oder ähnliche E-Mails in einer "Message Group" zusammengefasst. Aktionen (Trash, Review) können somit sehr einfach auf mehrere identische/ähnliche E-Mails appliziert werden. Jede Message Group hat eine ID. Da diese ID mathematisch berechnet wird, ist die Message Group ID auf allen Sublime Instanzen identisch. So können wir sehr schnell identische/ähnliche E-Mails auf mehreren Sublime Instanzen löschen.
Wie funktioniert es?
Messge-Groups erfassen nuancierte Änderungen am Absender, Betreff und Nachrichteninhalt. Zum Beispiel:
- Zwei verschiedene Absender, z.B. „hr-expert09248@gmail.com“ und „hr-expert08124@gmail.com“
- Namen in Betreffzeilen und Nachrichteninhalten, z.B. „AJ, du hast gewonnen!“ und „Alexis, du hast gewonnen!“
- Änderungen in Links, z.B. „domain.com/user=1304394“ und „domain.com/user=1244085“
- Dynamische Rechnungsnummern in der Betreffzeile: „Rechnung: 12345 und Rechnung: 12435“
Wie funktioniert es auf technischer Ebene?
Um geringfügige Abweichungen an verschiedenen Stellen einer Nachricht zuzulassen, ohne alle Permutationen antizipieren zu müssen, wird MinHash verwendet, um die Jaccard-Ähnlichkeit zwischen zwei Mengen zu schätzen. Sublime konvertiert das Message Data Model (MDM) in eine Menge von ngrams aus den Zeichenfolgen in verschiedenen Feldern, um sie in Token für die Mengen aufzuteilen. Für eine effiziente Suche in diesen Mengen hat Sublime eine Schicht des Hashings hinzugefügt, um sie in einer Datenbank indizierbar zu machen. Die Idee ist, dass Sublime die minimalen Hashes in Gruppen, sogenannte „Bänder“, aufteilt und überprüfen kann, ob zwei Nachrichten in einem beliebigen Band übereinstimmen.
MinHash bietet Sublime zwei Hauptwerkzeuge für eine performante Ähnlichkeitssuche:
- Eine Bandsuche, um Kandidaten über einem vorbestimmten Schwellenwert zu finden
- Die ursprünglichen Bins, um den ungefähren Jaccard-Index zwischen zwei Mengen wiederherzustellen Das Ergebnis ist eine bessere Gruppierung von Nachrichten innerhalb einer Kampagne, die zusammen überprüft und bearbeitet werden können.