Oder: Warum E-Mails im Spamfilter hängen bleiben

Einleitung

Leider kommt es immer wieder vor, dass E-Mails im Spamfilter hängen bleiben. Dies ist sowhol für den Empfänger, als auch den Sender oft ärgerlich da man sich sehr an die Kommunikation mit E-Mails gewohnt hat: Schnell und bequem erstellt und zugestellt. Wie war das früher? Ach ja, da gab’s ja noch Fax und Telefon, aufwendig und relativ teuer.

Bevor wir uns den detaillierten Mechanismen eines Spamfilters zuwenden, müssen wir uns fragen, was ist eigentlich Spam? Spam ist mittlerweile ein Sammelbegriff für unerwünschte E-Mails, wobei der Grund warum ein E-Mail unerwünscht ist, erst mal egal ist. Ursprünglich handelte es sich um unerwünschte Werbemails, heute zählen auch schädliche Mails wie Phishing, mit Viren, Trojaner etc. „verseuchte“ Mails dazu. Eben alles was ich nicht in meinem Posteingang sehen will

Ein Spamfilter ist eine Software, die Anhand verschiedener Merkmale versucht, Spam-Mails zu erkennen und auszufiltern. Um Spamfilter besser zu verstehen, müssen wir uns mit der Frage „was ist Spam?“ etwas auseinandersetzen, gefolgt von den Methoden und Merkmalen die zur Erkennung von Spam in Spamfiltern eingesetzt werden.

Mit diesem Artikel möchte ich mich an den Anwender von E-Mail wenden und aufzeigen, warum seine Mails eventuell gehäuft im Spamfilter des Empfängers hängen bleiben. Aber auch dem Empfänger von E-Mails zeigen,wie seine Klassierung mit einem Mausklick das Verhalten des Spamfilters in der Zukunft beeinflusst.

Was ist eine Spam E-Mail?

Dafür gibt es keine allgemeingültige Antwort, denn dies definiert ausschliesslich der Empfänger.
Besser ist also die Frage: Warum definiere ich persönlich eine E-Mail als Spam? Ist der Newsletter des Lieferanten X Spam? Kann, muss nicht sein, oder kurz: Es kommt darauf an! Falls ja, ich aber trotzdem andere Mails des Online-Händlers im Zusammenhang mit Bestellungen möchte, wird es schwierig für einen Spamfilter zwischen unerwünschten (= Spam) und erwünschten Mails zu unterscheiden. Wenn die erwünschten E-Mails fast mehr Werbebotschaften, als erwünschten Inhalt enthalten, d.h. fast gleich wie ein Newsletter daherkommen, kann ein automatischer Spamfilter kaum mehr richtig unterscheiden. Gehäufte Fehlerkennungen sind die Folgend davon.

Zugegeben: Den Newsletter kann man heute abbestellen und man hat Ruhe. Hier geht es aber auch darum aufzuzeigen, auf was beim Versand einer E-Mail zu achten ist, wenn dieses beim Empfänger nicht im Spam-Ordner landen soll.

Wie arbeiten die heutigen Spamfilter?

Grundsätzlich werden die folgenden vier Ansätze zur Erkennung von Spam genutzt:

Überprüfung des Absenders anhand seiner E-Mail-Adresse oder URL
Kontrolle der Server, die den Inhalt versenden, weiterleiten oder zur Verfügung stellen
Aussortieren nach dem Header
Aussortieren anhand des Textes (Contentfilter)

Auf die Techniken wie Blacklists, Grey Filter, SPF, RDNS usw., die primär in den ersten drei Ansätzen Anwendung finden, möchte ich hier nicht weiter eingehen. Dies würde den Umfang dieses Artikels bei weitem Sprengen. Dies sind alles Themen die der Administrator des Mailservers bewältigen muss. Zur Illustrastion der Bedeutung dieser Techniken zeigt das folgende Bild eine Auswertung, wie bei unserem Mailfilter die verschiedenen Techniken genutzt werden, wobei diese nicht immer exakt zugeordnen werden können. Jeder Hersteller kocht bei der Umsetzung sein eigenes „Süppchen“.

Wärend die ersten drei Ansätze eher objektiv sind, ist die Inhaltsanalyse eher unpräzis. Wie bereits oben erläutert, können E-Mails vom gleichen Absender, die die ersten drei Ansätze problemlos durchlaufen, beim Inhaltsfilter durchfallen, oder auch nicht. Dies beinflusst der Absender durch Aufbau, Struktur sowie Inhalt, und der Empfänger durch Black- resp. Whitelist-Pflege sowie lernen des Inhaltsfilters, entscheidend mit. Die Administratoren der Mailserver und Spamfilter haben darauf einen sehr geringen Einfluss.

Was, wenn eine Spam-Mail erkannt wird?

Eine wesentliche Unterscheidung der Ansätze ist auch, wie der Spamfilter reagiert. Wird die Annahme einer E-Mail anhand der ersten drei Ansätze verweigert, teilt dies der empfangende Server dem sendenden Server mit einer mehr oder weniger eindeutigen Begründung mit. Der sendende Server informiert den Absender mit der entsprechenden Meldung und sendet diesem einen Nichtzustellbarkeits-Bericht (kurz: NDR für „non deliviery report“) zu. Damit weiss der Absender, dass seine E-Mail nicht zugestellt werden konnte und warum.

Ganz anders verhält sich der Inhaltsfilter: Sortiert dieser eine E-Mail als Spam aus, wird in der Regel weder Absender, noch Empfänger darüber informiert. Dies macht insbesondere bei wirklichen Spams auch keinen Sinn, denn damit würde eine Spam-Nachricht zwei weitere Nachrichten auslösen, die selbst unerwünscht, d.h. Spam, sind. Das wäre das komplette Gegenteil von dem was ein Spamfilter machen sollte.
Abhängig davon, wie ein Inhaltsfilter im Mailfluss eingbaut ist, hat er unterschiedliche Möglichkeiten zu reagieren. Folgende Varianten finden Anwendung:

Mailfilter vor dem Mailserver:
Diese lassen ungewollte Mails gar nicht erst zum Mailserver durchkommen. Wir beobachten bei unserem Mailfilter (siehe Auswertung oben), dass nur rund 10% aller Mails überhaupt zum Mailserver weitergeleitet werden. Entsprechend ist die Belastung bezüglich CPU-, Speicher etc. des Mailserver auf 10% reduziert.
Vermutete Spam-Mails werden in eine Quarantäne verschoben. Der Empfänger erhält regelmässig einen Quarantäne-Report in dem alle Mails in der Quarantäne aufgelistet werden inkl. einem Link. Über diesen Link je gefilteter E-Mail kann der Benutzer dem Mailfilter mitteilen, dass es sich dabei nicht um Spam handelt, und er diese E-Mail weiterleten soll.
Mailfilter im Mailserver oder E-Mail Client wie z.B. Outlook:
Da diese Filter direkt Zugriff auf die Mailbox des Anwenders haben, legen sie vermeintlich Spam-Mails nicht in den Posteingang, sondern in einen separaten Ordner der je nach Software unterschiedliche Namen haben kann. Spam, Junk-E-Mail etc. sind üblich.
Achtung: Diese Methode hat einen sehr gefährlichen Nachteil: Werden die Mails mit dem POP3-Protokolle vom Server abgeholt, wird ausschliesslich der Ordner Posteingang gelesen. Das heisst, dass die Mails im Spam-Ordner nie durch den Empfänger gesehen, schon gar nicht gelesen werden. Dies ist übrigens völlig unabhängig von der E-Mail Client Software (Outlook, Thundebolt, MS Mail, Apple, iPad, Smartphones etc.). Verwenden Sie anstelle von POP3 das IMAP4 Protokoll das alle Ordner auf dem Server in den Mail-Client lädt. Je nach Server (Exchange, Kerio Connect, OpenExchange etc.) steht natürlich auch ActiveSync zur Verfügung das generell zu bevorzugen ist.

Spam-Vermeidung

Ein ganz wesentlicher Unterschied der ersten drei Spamfilter Techniken zur Inhaltsfilterung sind die Möglichkeiten zur Vermeidung von Spam-Erkennung. Ob eine Mail mit den ersten drei Filtermethoden aussortiert wird, ist in grossem Mass von der Konfiguration des sendenden Servers abhängig. Ausserdem helfen die oben erwähnten NDR-Reports und Protokolle auf den Servern allfällige Probleme zu analysieren und zu beheben.

Ganz im Gegensatz dazu beim Inhaltsfilter: Das Ergebnis einer Mailzustellung hängt hier ausschliess vom empfangenden Inhaltsfilter und dessen Einstellungen ab. Natürlich hat auch der Autor des Mails bei der Gestaltung des Inhalts einen wesentlichen Beitrag. Genau diesem Thema widmet sich der folgende Abschnitt zu.

Inhaltsfilter

Um Mails zu erstellen die möglichst nicht in einem Inhaltsfilter hängen bleiben ist es hilfreich zu wissen, welche Methoden zur Anwendung kommen. Hier gilt es primär folgende Methoden zu unterscheiden:
1. Bayes Test
2. Analyse des Mailinhalts nach verschiedensten Kriterien

Bayessche Filter

Dem bayesschen Filter liegt ein statistisches Modell zur Wahrscheinlichkeitsberechnung zugrunde, welches auf den englische Mathematiker Thomas Bayes zurückgeht. Wichtig ist, dass dieser Filter selbstlernend ist. Mit jeder E-Mail die er verarbeitet von dem er verbindlich weiss, ob es sich um Spam oder nicht Spam handelt, lernt er anhand von Ähnlichkeiten neue E-Mails als Spam oder nicht Spam zu klassieren. Das führt zu folgenden Problemen:

Bayes Filter sind NIE exakt da sie per Definition mit Ähnlichkeiten arbeiten.
Bayes Filter sind vom Lernmaterial abhängig, je mehr, je besser.
Sind die gelernten Spam-Mails ähnlich wie gelernte nicht Spam-Mails wird die Unterscheidung für neue E-Mails die Ähnlich zu Spam UND Nicht-Spam sind, zufällig sein.

Vor allem der dritte Punkt scheint mir wichtig, wenn wir zum Anfang dieses Artikels zurückgehen. Ein Beispiel:
Sie sind Kunde einer Bank und erhalten regelmässig einen Newsletter. Banken sind beliebte Angriffsziele für Phishing E-Mails. Sie erhalten nun ein solches das wirklich täuschend echt aussieht, erkennen aber den Fake. Sie taxieren dieses Mail im E-Mail Client als Spam. Aufgrund der Ähnlichkeit hat der bayessche Filter nun Probleme beim nächsten Newsletter Mail zu erkennen, ob es sich um Spam oder nicht Spam handelt. Nun wäre es wichtig, dem Spamfilter bei jedem Newsletter Mail mitzuteilen, dass es sich nicht um Spam handelt. Wie dies erfolgen kann ist abhängig vom E-Mail Client.

Inhalts-Analyse-Filter

Die Mechanik dieser Inhaltsfilter ist immer gleich: Der Hersteller einer Filter-Software analysiert laufend Millionen von Spam-Mails und erkennt daraus gewisse Strukturen, Wörter, Formatierungen, Inhalte etc. und analysiert nun eingehende Mails nach diesen Kriterien. Für jedes gefundene Kriterium erhält das Mail eine Punktezahl. Die Summe definiert nun, ob das Mail als gut, wahrscheinlich Spam oder definitiv Spam eingestuft wird und behandelt es entsprechend seiner Einstufung (weiterleiten in Posteingang, in Junk-Ordner oder löschen).

Was sind die Kriterien, welches gibt wie viele Punkte, was sind die Schwellwerte für Spam etc.? Dies wird alles im Inhaltsfilter des empfangenden Servers und/oder des E-Mail-Clients und/oder Clientseitiger Spamfilter definiert.

Nicht in jeder Anti-Spam-Software sind die Kriterien transparent. Oft geht es um die Einzigartigkeit weshalb das Produkt eines Herstellers das Beste sein soll. Ausserdem will man den Urhebern von Spam-Mails nicht zu einfach machen und ihne gleich mitteilen, wie sie einen Inhaltsfilter umgehen können.

Einige Kriterien sind aber relativ klar und ergeben sich durch einfaches Beobachten was jeder Benutzer selbst als Spam-Mail taxiert. Ein paar Beispiele:

Typische unerwünschte Wörter sind Viagra, Cialis, inkl. deren Abwandlungen wie V1agra etc.
Die zuverlässige Erkennung der Wörter hat dazu geführt, dass anstatt des Textes, ein Bild mit gleichem Text, gesendet wird. Deshalb sind Bilder mit wenig Text rundherum, sogenanntes Bild-Spam, negativ bewertet.
Typische Spammails mit Angeboten illegaler Medikamente haben einen tabellenartigen Aufbau (je Zeile: Produkt, Preis). Ähnlich aufgebaute E-Mails werden ebenfalls negativ bewertet.
Auch Links auf Websites werden gezählt und analysiert, mit Blacklists abgeglichen und taxiert. So kann ein Link auf eine Website die in einer Blacklist eingetragen ist, genügen, dass aus dem Mail Spam wird. Auch Links auf verschiedene Websites werden negativer taxiert als nur auf die gleiche. Noch unkritischer sind Links auf die eigene Website, d.h. die gleiche Domäne wie die Absender-Mailadresse.
Schlechte und/oder falsche HTML-Formatierungen werden ebenfalls negativ bewertet. HTML ist die Beschreibungssprache für Webseiten die mittlerweile auch zur Formatierung von E-Mails üblich ist. Reine Textnachrichten sind immer im Vorteil, sehen aber nicht so schick aus.

Resumé Inhaltsfilter:

1. Die Summe macht’s. Selten genügt ein einzelnes Kriterium.
2. Es ist immer die Empfangsseite die definiert was Spam ist und was daraus wird.
3. Aber: Natürlich kann auch der Absender durch die Gestaltung der E-Mail dafür sorgen, dass die Wahrscheinlichkeit als Spam taxiert zu werden, geringer ist.

it and more… ag

… mehr als nur Computer

Warum kommen nicht alle E-Mails beim Empfänger an?