Erfolgreiche Blacklist (2)

Freitag, 12. Oktober 2007, 14:01

Erfolgreiche Blacklist (2)

Ich denke, die Zahlen sprechen für sich:

(die Grafik entstammt unserer internen Verwaltung, öffentlich ist diese nur stark verkleinert einsehbar)

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

Markus

Danke übrigens. Seit ich Euch mitnutze, kommt deutlich weniger durch.

mike

aber < 50% ist schon mies, oder?

Da bringt das ja gar nicht allzu viel, und ich kann alles vom Mailprogramm filtern lassen.

Alex

Ich meine mal gelesen zu haben, dass Header-/Contentanalyse aufwendiger ist, als die hier benutzte Methode. Wenn ~50% weniger durch diese Analyse laufen müssen, bringt das ab einer gewissen Menge vermutlich doch einiges

Alexander Langer

Es geht beim Einsatz solcher Listen auch weniger um den einzelnen Mail-Empfänger, der sich damit am Tag eine hand voll Spams erspart.

Wir sind nur ein recht kleiner Dienstleister und schon bei uns werden täglich problemlos 100.000 Mails abgewiesen, u.a. dank dieser Liste (via policyd-weight). Das sind 100.000 Mails die nicht durch Spam-Filter und Virenscanner laufen und entsprechend Ressourcen (CPU-Zeit, Speicher, Traffic) verbrauchen und somit auch 100.000 weniger Mails, die an unsere Kunden und uns selbst ausgeliefert werden. Damit sinkt auch die Anzahl von ärgerlichen False Negatives im Postfach und die Anzahl von als Spam markierten Mails, die man zur Sicherheit nochmal überfliegen muss. Es braucht nicht viel Phantasie um eine Vorstellung zu bekommen, was das in größerem Maßstab für die Wirtschaft bedeutet.

Wer will denn seine Mitarbeiter dafür bezahlen müssen den ganzen Tag ihre Mails zu checken? Und dann sind da noch die armen Schweine die alle Mails aus Blackberry bekommen...

Arnold

Okay. 50%. Aber von was?

Heißt das, das Deine Blacklist 50% der Emails blockt? 50% des Spams? Das die Blacklist beim Blocken 50% richtig/falsch lag?

In 50% der Fälle den Spam zu recht erkennen ist recht einfach: Man blockt jedes zweite Email. Dabei werden zwar auch 50% der guten Emails geblockt, aber das ist ja dann nur ein Kollateralschaden.

Irgendwie fehlt mir der Bezug, um die Grafik zu deuten. Außerdem wäre es ja schön, wenn man Verbesserungen oder so in größerem zeitlichen Rahmen sichtbar macht, evtl. sogar mit eingezeichneten Datumslinien ala "Blockliste eingeführt", "Blocklist entscheidend verbessert", "Wurm XXX aufgetreten"...

Arnold

Alexander Langer

Die Aussage der Quote ergibt sich aus der Funktionsweise einer DNSBL. Jede Anfrage, zu der in der Liste ein Eintrag gefunden wird ist ein Treffer.

Nun kann man natürlich das Fass aufmachen, ob denn auch ausnahmslos alle Einträge über jeden Zweifel erhaben sind, aber dafür gibts ja z.B. policyd-weight...

Arnold

Ja schön, aber was sagt die Quote?

50% der Emails wurden geblockt? 50% des Spams wurde richtig erkannt? 50% der Anfragen waren positiv (also negativ für den Spammer)?

Und 50% sind wirklich nicht viel. Das gleiche erreicht man nämlich auch, wenn man immer abwechselnd positiv und negativ antwortet. Ist einfache Statistik...

Interessant wäre zum Beispiel, wieviel Prozent des erkannten Spams auf die einzelnen Filter abfallen oder wieviel Prozent der Mails insgesamt (also inklusive guten Emails).

Vielleicht bin ich ja zu doof oder zu unwissend, aber mir fehlen an der Grafik einfach mal die entscheidenden Informationen. Denn meine privaten Trefferquote mit dem Luftgewehr sieht besser aus. Und meinen Trainingsverlauf könnte ich auch in so einem Diagramm darstellen, mit exakt der gleichen Beschriftung...

Alexander Langer

Wie ich bereits schrieb besagt sie, dass 50% der Anfragen in der Liste gefunden wurden. Mehr Aussage kann nicht getroffen werden, da der Manitu ja nicht wissen kann, was auf Basis seiner Antwort mit der Mail geschieht.

Arnold

Okay.

Lieber manitu: Deine Liste ist leider nicht so gut, wie Du (und alle Nutzer) denken. Das gleiche Ergebnis erreicht man auch mit einem einfachen "Jede zweite Antwort ist nein." oder wenn jede Antwort mit 50%-iger Wahrscheinlichkeit negativ beantwortet wird.

Manuel Schmitt (manitu)

Muss ich verstehen, was Du gerade für einen Unsinn von Dir gibst?

Arnold

Ja, Du solltest es zumindest.

Entweder ich verstehe etwas sehr grundlegend falsch (siehe mein Eintrag #7.1) oder die Zahlen sprechen eben nicht für sich bzw. haben eine Aussage, die keine Relevanz hat.

Manuel Schmitt (manitu)

Du hast folgende Dinge bei Deinen Ausführungen vergessen:

1. Die Blacklist liefert natürlich nicht willkürlich positive Antworten, sondern nur dann, wenn eine IP als Spam-Versender bekannt ist. Dem steht nun Dein "50:50-Würfel"-Prinzip gegenüber.

2. Du hast nicht beachtet, dass die Grundlage für die Trefferquote ist, dass die Abfragenden (Mailserver) grundsätzlich alle Ihre eingehenden E-Mails bei der Liste abfragen. Somit ist die Liste, um es mal als Korinthenk* zu sehen, eine Aussage darüber, wieviel Prozent der von abfragenden Mailservern abgefragten IP-Adresse in der Liste bereits bekannt sind. Landläufig finde ich "Trefferquote" eine "normale" und somit auch gelungene Bezeichnung, denn es ist klar, dass dies immer nur ein Ausschnitt des eingehenden (und auch des abgefragten Spam-Aufkommen) darstellt. Und es ist ja auch auf diese Liste bezogen.

Manuel Schmitt (manitu)

Und noch eine Formulierung hätte ich

Die Grafik sagt aus, wie groß Deine Chances mit Hilfe der Blacklist-Abfrage (statistisch gesehen) ist, Spam bereits vor der inhaltlichen Analyse verwerfen zu können, sofern Dir die Absende-IP-Adresse vorliegt, wenn man davon ausgeht, dass die Datengrundlage (sprich was der Heise-Verlag als Spam ansieht und was nicht) Deinen Kriterien entspricht.

Arnold

Naja, leider ist das nicht ganz richtig.

Bei 50% Trefferquote ist die Blacklist nicht besser oder schlechter als mein Vorschlag einfach jede zweite Anfrage mit Ja/Nein zu beantworten, sondern beide Verfahren liefern eine gleiche Trefferquote. Eine bessere Trefferquote im Sinne der Aussage der Grafik wäre es sogar, wenn die Blacklist jede Anfrage behandelt (und beantwortet) als wenn die IP der Liste bekannt ist. Das gibt dann nämlich eine Trefferquote von 100%!
Das das keinen wirklichen Nutzen hat, ist mir klar, in der Grafik wird allerdings kein Nutzen bewertet sondern lediglich die Trefferquote dargestellt...

Ich habe auch nix gegen die Bezeichnung "Trefferquote". Aber gegen die Trefferquote selbst, also gegen die Aussage so-und-so viel Prozent der Anfragen werden mit [platzhalter] beantwortet. Denn das sagt nix über die Qualität aus.

Deswegen bin ich der Überzeugung, das die Zahlen eben nicht für sich sprechen, wie Du behauptet hast. [1]

Das richtige Kriterium zur Bewertung der Blacklist ist, wieviel Spam richtig als Spam erkannt wird und wieviel Nicht-Spam durchgelassen wird.
Interessant ist auch, wieviel weniger die nachfolgenden Anti-Spammaßnahmen belastet werden, wenn man die Blacklist davorschaltet.
Aber das sagen die "für sich selbst sprechenden" Daten leider nicht aus.

Arnold

[1]: Eine Aussage kann man aus den Daten tatsächlich ziehen: Es scheint als würde in der ersten Tageshälfte überdurchschnittlich viel Spam verschickt. Dafür sollte man aber die Fluktuationen über einen größeren Zeitraum betrachten, den es gilt eines der Grundgesetze der Statistik: Je größer die Datenmenge, desto kleiner der Fehler.
Achja, die Untersuchung der Fluktuationen fällt unter das Stichwort "Detrending Fluctuations" und kann sehr interessante Aussagen und Zusammenhänge offenbaren.

Alphager

Aus der Graphik geht hervor:
~50% aller Anfragen werden mit "Absender ist bekannter Spammer" beantwortet.
100% aller nicht-Spammer werden als Nicht-Spammer markiert.

_WEITAUS_ besser als würfeln.

Arnold

Nein, die Grafik sagt eben *nicht*, das 100% aller Nicht-Spammer auch als Nicht-Spammer behandelt werden.

Sie besagt nur, das 50% aller Anfragen (egal ob Spam oder nicht) als Spam markiert werden. Und das geht wie ich schon mehrfach sagte mit anderen (sinnfreien) Methoden auch bzw. sogar mit einer höheren "Trefferquote".

Alphager

Gut, das geht nicht aus der Grafik hervor, sondern aus der Funktionsweise der Blacklist.

Trotzdem besser als würfeln

Alexander Langer

Kurz und knapp: Humbug!

Ich bin mir nicht ganz sicher, ob du in Unkenntnis schreibst (was okay wäre), oder ob du trollen möchtest.

Arnold

Also eigentlich will ich nicht trollen. Ich will die Relevanz der Grafik verstehen.

Soviel hab ich verstanden: Sie besagt, das (im Schnitt) 50% der Anfragen an die Blacklist eine positive Antwort haben, bei Verwendung im Spamfilter also die jeweiligen Mails als Spam markiert werden. Richtig?

Wenn das so ist, dann ist diese Methode ineffektiv, weil das gleiche Ergebnis auch Ressourcen-schonender erreicht werden kann, indem nicht die Blacklist antworten lässt, sondern immer abwechselnd eine positive und eine negative Antwort gibt.

Das macht sich dann in der Grafik sogar schöner, weil es eine "konstante" Trefferquote von 50% liefert.

Was ich sagen will: Wenn mein bisheriges Verständnis stimmt, dann ist die Grafik Sinnfrei oder zumindest nicht geeignet die Blackliste als Anti-Spammaßnahme zu belegen.

Deneriel

Ist das jetzt schon Fisch?

Also nochmal langsam zum mitmeißeln:
- Auf einer Blacklist werden IPs von Hosts eingetragen die als Spamschleudern bekannt sind
- ein Mailserver prüft für jede eingehende Mail ob die Quelle der Nachricht in der Blacklist bekannt ist
-- wenn ja: Die Kommunikation mit der Gegenstelle wird abgebrochen und die Mail nict angenommen.
-- wenn nein: Die Mail wird an den Spamfilter zur weiteren Bearbeitung weitergeleitet. Ab jetzt besteht in der Regel sogar eine Pflicht zur Beförderung und Zustellung. Automatisiertes Löschen ohne Zustimmung des Users ist tabu.

Das ist die übliche Funktionsweise einer Blacklist. Ohne Blacklists muß der Spamfilter den gesamten auftretenden Verkehr filtern. Erst DORT wird festgestellt ob die Mail eigentlich Spam ist.

Rein statistisch ist da mal eben gar nichts zu machen, es sei denn du koordinierst die Botnetze der Spammer und alle Mailserver weltweit so daß sie immer abwechselnd oder in bestimmtem Rythmus Spam und echte Mails verschicken. Und wenn du das schon kannst, kannst du die Spambots auch ganz deaktivieren.

Arnold

Ich habe den Sinn und die Funktion der Blacklist durchaus verstanden.

Was ich anzweifle ist die Aussage der Grafik...

Und ich will die Blacklist nicht in Ihrer Funktion durch einen 50/50-Mechanismus ersetzen (das wäre zu Recht Unsinn), ich will deutlich machen, das ein 50/50-Mechanismus den gleichen Grafen, zumindest die gleiche Gesamtaussage, nämlich Trefferquote ~50%, zur Folge hätte und dementsprechend die präsentierte Grafik (die ja anscheinend in den diversen Tools als tolles Bewertungsinstrument "verkauft" wird und hier als Argument für die Blacklist gelten soll) keinen Sinn hat um die Qualität zu bewerten.

So und jetzt guck ich nen Film und höre auf zu diskutieren. Es sei denn, Ihr schickt mir Emails...

flo

Die 50% der Grafik sagen lediglich aus, das 50% der Mails von Servern kommen, die auf der Blacklist stehen. Innerhalb dieser 50% besteht aber eine Trefferquote von 100%. Bei deinem 50/50-Zufallsalgorithmus würde die Trefferquote lediglich 50% betragen.

Arnold

Boah, toll 100% aller als Spam markierten Anfragen sind als Spam markiert! Wahnsinn!

Und leider total Unsinn. Denn ersten sagt das nicht, das auch wirklich alle als Spam markierten auch Spam sind, sie werden nur so behandelt.
Zweitens, wenn Du mal mit nem Würfel ganz oft würfelst und dann die Häufigkeit der einzelnen Zahlenwerte untersuchst, werden zwar (hoffentlich) 100% der Sechsen auch Sechsen sein (und von diesen 100% der Sechsen sind wieder 100% Sechsen und so weiter), aber diese "Trefferquote" von 100% ist nun mal totaler Unsinn.

Alexander Langer

Ist der Film schon zu Ende?

Gib doch Bescheid wenn du weißt, was du uns sagen möchtest. Eine Formel zur Beantwortung der Frage nach dem Leben, dem Universum und allem wirst du nicht bekommen und niemals hat jemand behauptet (auch kein Manuel Schmitt) dass diese Grafik die Antwort liefern würde.

Belassen wir es doch dabei, dass man mit ein wenig Sachkenntnis und Nachdenken schnell darauf kommt, welche Aussage die Grafik macht und damit auch, welche sie nicht macht. Wenn du meinst, dass sich der Einsatz deiner Würfelmethode zur Bewertung von Mail / Abwehr von Spam in der Praxis als ebenso hilfreich erweisen könnte, spricht ja nichts dagegen, dass du eine solche entwickelst und der Allgemeinheit zur Verfügung stellst.

Ich wäre der letzte, der sie nicht auch einsetzen würde, so sie eben die Praxistauglichkeit beweisen kann. Ich würde mir in einer Testphase aber vorbehalten, Anrufe erboster Kunden an dich weiterzuleiten

Arnold

Ich wiederhole: Ich verstehe die Funktion einer Blacklist! Die kann man übrigens nicht nur zum Blocken von Mail-Spam verwenden, sondern könnte zum Beispiel auch diverse Firewall-Regeln darauf basieren lassen, etwa könnten stratum1-Server nur nichtgelisteten Rechnern das syncen erlauben...

Aber ich verstehe nicht, wie diese Grafik den Erfolg der Blackliste belegen soll! Und das ist schließlich die Aussage des Blog-Eintrags!
Denn ein 50/50-Mechanismus hat im großen und ganzen den selben Graphen zur Folge, ein 100%-Mechanismus sogar einen "besseren" im Sinne der Grafik! Natürlich ist so ein Mechanismus Unsinn in der Spam-Bekämpfung (etwas anderes habe ich nie behauptet).

Ich erwarte keine Antwort auf das Leben, das Universum und den ganzen Rest, ich will deutlich machen, das diese Graphik, obwohl anscheinend allgemein als "Beweis" für die Güte der Blacklist angesehen, eben nichts über die Güte aussagt!

Und wenn man über den Graphen nachdenkt (auch wenn man im Hinterkopf hat, das die meisten oder alle Benutzer sie zur Spam-Bekämpfung einsetzen), dann sagt die Graphik eben nur, das ~50% aller Anfragen negativ beantwortet werden, weiter nichts. Das sagt _nichts_ über die Richtigkeit dieser Antworten, das sagt _nichts_ über den Erfolg und das spricht zwar für sich, sagt aber nichts aus...

nighthawk

man muss schon ein wenig den kontext dazu sehen. sogesehen spricht die grafik nur fuer sich, wenn man ebenfalls einen mailserver adminstriert und daher weiss, wie das verhältnis spam/nicht-spam ist. das ist naemlich noch weitaus schlechter als 50:50 sondern eher im bereich von 80:20 bis 95:5.
die trefferquote von manuels blacklist lag jahrelang bei 10 bis 15%. nach der kuerzlichen aufnahme weiterer spamfallen war sie auf ca. 30% gestiegen und nun liegt sie anscheinend bei durchschnittlich 50%. je naeher sich diese blacklist der tatsaechlichen quote annaehert, desto besser ist dessen wirksamkeit. dabei muss man wieder wissen, dass diese liste nahezu keine false positives liefert. und genau das ist das schlagende argument gegen dein zufallsprinzip.

Manuel Schmitt (manitu)

Ich fasse zusammen. Das einzige, worüber wir uns hier die ganze Zeit unterhalten haben, ist die nicht explizit gemachte Aussage, dass jeder Treffer, den die Blacklist liefert, in 99,999% aller Fälle auch wirklich einer ist. Richtig?

flo

Richtig. Genau das wollte ich mit den 100% oben auch zum Ausdruck bringen.

Bert Ungerer

Da fehlen zwei Neunen. "Five nines" sind zwar schon ganz nett, würden aber hier Hunderte von falsch eingeschätzten Mails pro Tag bedeuten. Da viele die Liste zum Abweisen verwenden, hätten wir eine Beschwerdezahl in ähnlicher Größenordnung.

Manuel Schmitt (manitu)

Mist :-|Ich hatte das /100 beim Rechnen vergessen. Sorry!

nohoff

Ganz einfach:

Der mailserver bekommt eine email und überprüft die DNS des absenders mit hilfe der DNSBL wenn die DNS der BL als Spammer bekannt is gilt es als treffer wenn nicht dann nicht.
Verstanden?

Bert Ungerer

Ein paar weitere Zahlen können hoffentlich helfen, die Grafik einzuordnen. Leider kennt niemand die genauen Zahlen von erwünschten und unerwünschten E-Mails, wegen derer unsere DNSBL abgefragt wird. Was wir jedoch kennen, ist die Zahl der Abfragen und die Zahl der Beschwerden wegen der Eintragung von Mailservern, die nicht nur zum Spammen benutzt werden. Das Verhältnis liegt bei unter einer Beschwerde auf 10 Mio. Abfragen. Da viele Nachkommastellen unübersichtlich sind, sei die vereinfachende Aussage erlaubt, dass "praktisch alle" DNSBL-Treffer Spam richtig einzuordnen helfen. Bei einer (wie hier leicht provozierend unterstellten) einfachen Positiv-Antwort auf jede zweite Abfrage hätten wir nun natürlich nicht 5 Mio. Beschwerden auf 10 Mio. Abfragen, sondern einfach keine Abfrage, weil kein Mensch die Blacklist nutzen würde.

Außerdem ist es eine einigermaßen anerkannte Tatsache, dass derzeit etwa 90 % aller E-Mails Spam transportieren, also 10 % keinen Spam. Wer also unsere Blacklist zum Vorsortieren benutzt, steigert das Verhältnis erwünscht:unerwünscht von 1:9 (11 %) auf 1:4 (25%). Das wirkt im Vergleich zu Werten gut trainierter Bayes- oder aktueller Virenfilter nicht aufregend, kann aber dennoch die Mailsysteme deutlich entlasten.

Stephen

Also auf meinen Mailservern ist durch den Einsatz von ix.dnsbl.manitu.net und zen.spamhaus.org das Spamaufkommen auf ca. 5% gesunken. Etwa 80% kennt Spamhaus, der Rest zerschellt an der ix-DNSBL.

Weitere Filtermechanismen setzen wir serverseitig schon gar nicht mehr ein.

Feine Sache das ist

Alexander Langer

Spamhaus ist die letzte Zeit ja öfte mal in der Kritik gelandet. Ich habe bei uns anfangs auch mit diversen Einstellungen in Postfix zzgl. Blacklists gefahren und habe eine Weile getüftelt, ehe ich raus hatte welchen Listen man mit relativ gutem Gewissen trauen kann.

Die Arbeit hätte ich mir sparen können, hätte ich schon früher policyd-weight angeschaut. Das Ding konnte ich nach dem Prinzip Fire&Forget einbinden und ohne händische Änderungen durchlaufen lassen. Die Grundeinstellungen sind extrem gut. Bei PW ist Sorge dafür getragen, dass der Eintrag in einer einzigen RBL allein nicht für den Reject sorgt. Damit minimiert man die Fehlqerquote nochmals und ich habe eine noch höhere Reject-Quote auf dem Server, als ich sie vorher mit allen händischen Parametern und RBLs hatte (obwohl ich monatelang haufenweise Tutorials und Dokus gewühlt hatte

Claus

....wahrscheinlich würden noch mehr die Blacklist nutzen, wenn denn der DNS Eintrag ix.dnsbl.manitu.net mal aufgelöst würde.

-> /usr/sbin/traceroute: unknown host ix.dnsbl.manitu.net

Manuel Schmitt (manitu)

Warum sollte es für diesen Host einen A-Eintrag geben? Was soll dahinter liegen?

- die Webseite liegt unter www.dnsbl.manitu.net
- die Einträge unter D.C.B.A.ix.dnsbl.manitu.net

Stephen

ROFL

Und wieder einer, der das Prinzip nicht verstanden hat.

Kommentar schreiben

Name

Kommentar

Antwort zu

Umschließende Sterne heben ein Wort hervor (*wort*), per _wort_ kann ein Wort unterstrichen werden.

Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.

Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss, um dieses Verfahren anzuwenden.
CAPTCHA

Hier die Zeichenfolge der Spamschutz-Grafik eintragen:

BBCode-Formatierung erlaubt

Phone*

Welche Farbe hat ein Feuerwehrauto in Deutschland?

Formular-Optionen

Daten merken?