Freitag, 12. Oktober 2007, 14:01
Erfolgreiche Blacklist (2)
Ich denke, die Zahlen sprechen für sich:
(die Grafik entstammt unserer internen Verwaltung, öffentlich ist diese nur stark verkleinert einsehbar)
(die Grafik entstammt unserer internen Verwaltung, öffentlich ist diese nur stark verkleinert einsehbar)
Kommentare
Ansicht der Kommentare: Linear | Verschachtelt
Markus
mike
Da bringt das ja gar nicht allzu viel, und ich kann alles vom Mailprogramm filtern lassen.
Alex
Alexander Langer
Wir sind nur ein recht kleiner Dienstleister und schon bei uns werden täglich problemlos 100.000 Mails abgewiesen, u.a. dank dieser Liste (via policyd-weight). Das sind 100.000 Mails die nicht durch Spam-Filter und Virenscanner laufen und entsprechend Ressourcen (CPU-Zeit, Speicher, Traffic) verbrauchen und somit auch 100.000 weniger Mails, die an unsere Kunden und uns selbst ausgeliefert werden. Damit sinkt auch die Anzahl von ärgerlichen False Negatives im Postfach und die Anzahl von als Spam markierten Mails, die man zur Sicherheit nochmal überfliegen muss. Es braucht nicht viel Phantasie um eine Vorstellung zu bekommen, was das in größerem Maßstab für die Wirtschaft bedeutet.
Wer will denn seine Mitarbeiter dafür bezahlen müssen den ganzen Tag ihre Mails zu checken? Und dann sind da noch die armen Schweine die alle Mails aus Blackberry bekommen...
Arnold
Heißt das, das Deine Blacklist 50% der Emails blockt? 50% des Spams? Das die Blacklist beim Blocken 50% richtig/falsch lag?
In 50% der Fälle den Spam zu recht erkennen ist recht einfach: Man blockt jedes zweite Email. Dabei werden zwar auch 50% der guten Emails geblockt, aber das ist ja dann nur ein Kollateralschaden.
Irgendwie fehlt mir der Bezug, um die Grafik zu deuten. Außerdem wäre es ja schön, wenn man Verbesserungen oder so in größerem zeitlichen Rahmen sichtbar macht, evtl. sogar mit eingezeichneten Datumslinien ala "Blockliste eingeführt", "Blocklist entscheidend verbessert", "Wurm XXX aufgetreten"...
Arnold
Alexander Langer
Nun kann man natürlich das Fass aufmachen, ob denn auch ausnahmslos alle Einträge über jeden Zweifel erhaben sind, aber dafür gibts ja z.B. policyd-weight...
Arnold
50% der Emails wurden geblockt? 50% des Spams wurde richtig erkannt? 50% der Anfragen waren positiv (also negativ für den Spammer)?
Und 50% sind wirklich nicht viel. Das gleiche erreicht man nämlich auch, wenn man immer abwechselnd positiv und negativ antwortet. Ist einfache Statistik...
Interessant wäre zum Beispiel, wieviel Prozent des erkannten Spams auf die einzelnen Filter abfallen oder wieviel Prozent der Mails insgesamt (also inklusive guten Emails).
Vielleicht bin ich ja zu doof oder zu unwissend, aber mir fehlen an der Grafik einfach mal die entscheidenden Informationen. Denn meine privaten Trefferquote mit dem Luftgewehr sieht besser aus. Und meinen Trainingsverlauf könnte ich auch in so einem Diagramm darstellen, mit exakt der gleichen Beschriftung...
Alexander Langer
Arnold
Lieber manitu: Deine Liste ist leider nicht so gut, wie Du (und alle Nutzer) denken. Das gleiche Ergebnis erreicht man auch mit einem einfachen "Jede zweite Antwort ist nein." oder wenn jede Antwort mit 50%-iger Wahrscheinlichkeit negativ beantwortet wird.
Manuel Schmitt (manitu)
Arnold
Entweder ich verstehe etwas sehr grundlegend falsch (siehe mein Eintrag #7.1) oder die Zahlen sprechen eben nicht für sich bzw. haben eine Aussage, die keine Relevanz hat.
Manuel Schmitt (manitu)
1. Die Blacklist liefert natürlich nicht willkürlich positive Antworten, sondern nur dann, wenn eine IP als Spam-Versender bekannt ist. Dem steht nun Dein "50:50-Würfel"-Prinzip gegenüber.
2. Du hast nicht beachtet, dass die Grundlage für die Trefferquote ist, dass die Abfragenden (Mailserver) grundsätzlich alle Ihre eingehenden E-Mails bei der Liste abfragen. Somit ist die Liste, um es mal als Korinthenk* zu sehen, eine Aussage darüber, wieviel Prozent der von abfragenden Mailservern abgefragten IP-Adresse in der Liste bereits bekannt sind. Landläufig finde ich "Trefferquote" eine "normale" und somit auch gelungene Bezeichnung, denn es ist klar, dass dies immer nur ein Ausschnitt des eingehenden (und auch des abgefragten Spam-Aufkommen) darstellt. Und es ist ja auch auf diese Liste bezogen.
Manuel Schmitt (manitu)
Arnold
Bei 50% Trefferquote ist die Blacklist nicht besser oder schlechter als mein Vorschlag einfach jede zweite Anfrage mit Ja/Nein zu beantworten, sondern beide Verfahren liefern eine gleiche Trefferquote. Eine bessere Trefferquote im Sinne der Aussage der Grafik wäre es sogar, wenn die Blacklist jede Anfrage behandelt (und beantwortet) als wenn die IP der Liste bekannt ist. Das gibt dann nämlich eine Trefferquote von 100%!
Das das keinen wirklichen Nutzen hat, ist mir klar, in der Grafik wird allerdings kein Nutzen bewertet sondern lediglich die Trefferquote dargestellt...
Ich habe auch nix gegen die Bezeichnung "Trefferquote". Aber gegen die Trefferquote selbst, also gegen die Aussage so-und-so viel Prozent der Anfragen werden mit [platzhalter] beantwortet. Denn das sagt nix über die Qualität aus.
Deswegen bin ich der Überzeugung, das die Zahlen eben nicht für sich sprechen, wie Du behauptet hast. [1]
Das richtige Kriterium zur Bewertung der Blacklist ist, wieviel Spam richtig als Spam erkannt wird und wieviel Nicht-Spam durchgelassen wird.
Interessant ist auch, wieviel weniger die nachfolgenden Anti-Spammaßnahmen belastet werden, wenn man die Blacklist davorschaltet.
Aber das sagen die "für sich selbst sprechenden" Daten leider nicht aus.
Arnold
[1]: Eine Aussage kann man aus den Daten tatsächlich ziehen: Es scheint als würde in der ersten Tageshälfte überdurchschnittlich viel Spam verschickt. Dafür sollte man aber die Fluktuationen über einen größeren Zeitraum betrachten, den es gilt eines der Grundgesetze der Statistik: Je größer die Datenmenge, desto kleiner der Fehler.
Achja, die Untersuchung der Fluktuationen fällt unter das Stichwort "Detrending Fluctuations" und kann sehr interessante Aussagen und Zusammenhänge offenbaren.
Alphager
~50% aller Anfragen werden mit "Absender ist bekannter Spammer" beantwortet.
100% aller nicht-Spammer werden als Nicht-Spammer markiert.
_WEITAUS_ besser als würfeln.
Arnold
Sie besagt nur, das 50% aller Anfragen (egal ob Spam oder nicht) als Spam markiert werden. Und das geht wie ich schon mehrfach sagte mit anderen (sinnfreien) Methoden auch bzw. sogar mit einer höheren "Trefferquote".
Alphager
Trotzdem besser als würfeln
Alexander Langer
Ich bin mir nicht ganz sicher, ob du in Unkenntnis schreibst (was okay wäre), oder ob du trollen möchtest.
Arnold
Soviel hab ich verstanden: Sie besagt, das (im Schnitt) 50% der Anfragen an die Blacklist eine positive Antwort haben, bei Verwendung im Spamfilter also die jeweiligen Mails als Spam markiert werden. Richtig?
Wenn das so ist, dann ist diese Methode ineffektiv, weil das gleiche Ergebnis auch Ressourcen-schonender erreicht werden kann, indem nicht die Blacklist antworten lässt, sondern immer abwechselnd eine positive und eine negative Antwort gibt.
Das macht sich dann in der Grafik sogar schöner, weil es eine "konstante" Trefferquote von 50% liefert.
Was ich sagen will: Wenn mein bisheriges Verständnis stimmt, dann ist die Grafik Sinnfrei oder zumindest nicht geeignet die Blackliste als Anti-Spammaßnahme zu belegen.
Deneriel
Also nochmal langsam zum mitmeißeln:
- Auf einer Blacklist werden IPs von Hosts eingetragen die als Spamschleudern bekannt sind
- ein Mailserver prüft für jede eingehende Mail ob die Quelle der Nachricht in der Blacklist bekannt ist
-- wenn ja: Die Kommunikation mit der Gegenstelle wird abgebrochen und die Mail nict angenommen.
-- wenn nein: Die Mail wird an den Spamfilter zur weiteren Bearbeitung weitergeleitet. Ab jetzt besteht in der Regel sogar eine Pflicht zur Beförderung und Zustellung. Automatisiertes Löschen ohne Zustimmung des Users ist tabu.
Das ist die übliche Funktionsweise einer Blacklist. Ohne Blacklists muß der Spamfilter den gesamten auftretenden Verkehr filtern. Erst DORT wird festgestellt ob die Mail eigentlich Spam ist.
Rein statistisch ist da mal eben gar nichts zu machen, es sei denn du koordinierst die Botnetze der Spammer und alle Mailserver weltweit so daß sie immer abwechselnd oder in bestimmtem Rythmus Spam und echte Mails verschicken. Und wenn du das schon kannst, kannst du die Spambots auch ganz deaktivieren.
Arnold
Was ich anzweifle ist die Aussage der Grafik...
Und ich will die Blacklist nicht in Ihrer Funktion durch einen 50/50-Mechanismus ersetzen (das wäre zu Recht Unsinn), ich will deutlich machen, das ein 50/50-Mechanismus den gleichen Grafen, zumindest die gleiche Gesamtaussage, nämlich Trefferquote ~50%, zur Folge hätte und dementsprechend die präsentierte Grafik (die ja anscheinend in den diversen Tools als tolles Bewertungsinstrument "verkauft" wird und hier als Argument für die Blacklist gelten soll) keinen Sinn hat um die Qualität zu bewerten.
So und jetzt guck ich nen Film und höre auf zu diskutieren. Es sei denn, Ihr schickt mir Emails...
flo
Arnold
Und leider total Unsinn. Denn ersten sagt das nicht, das auch wirklich alle als Spam markierten auch Spam sind, sie werden nur so behandelt.
Zweitens, wenn Du mal mit nem Würfel ganz oft würfelst und dann die Häufigkeit der einzelnen Zahlenwerte untersuchst, werden zwar (hoffentlich) 100% der Sechsen auch Sechsen sein (und von diesen 100% der Sechsen sind wieder 100% Sechsen und so weiter), aber diese "Trefferquote" von 100% ist nun mal totaler Unsinn.
Alexander Langer
Gib doch Bescheid wenn du weißt, was du uns sagen möchtest. Eine Formel zur Beantwortung der Frage nach dem Leben, dem Universum und allem wirst du nicht bekommen und niemals hat jemand behauptet (auch kein Manuel Schmitt) dass diese Grafik die Antwort liefern würde.
Belassen wir es doch dabei, dass man mit ein wenig Sachkenntnis und Nachdenken schnell darauf kommt, welche Aussage die Grafik macht und damit auch, welche sie nicht macht. Wenn du meinst, dass sich der Einsatz deiner Würfelmethode zur Bewertung von Mail / Abwehr von Spam in der Praxis als ebenso hilfreich erweisen könnte, spricht ja nichts dagegen, dass du eine solche entwickelst und der Allgemeinheit zur Verfügung stellst.
Ich wäre der letzte, der sie nicht auch einsetzen würde, so sie eben die Praxistauglichkeit beweisen kann. Ich würde mir in einer Testphase aber vorbehalten, Anrufe erboster Kunden an dich weiterzuleiten
Arnold
Aber ich verstehe nicht, wie diese Grafik den Erfolg der Blackliste belegen soll! Und das ist schließlich die Aussage des Blog-Eintrags!
Denn ein 50/50-Mechanismus hat im großen und ganzen den selben Graphen zur Folge, ein 100%-Mechanismus sogar einen "besseren" im Sinne der Grafik! Natürlich ist so ein Mechanismus Unsinn in der Spam-Bekämpfung (etwas anderes habe ich nie behauptet).
Ich erwarte keine Antwort auf das Leben, das Universum und den ganzen Rest, ich will deutlich machen, das diese Graphik, obwohl anscheinend allgemein als "Beweis" für die Güte der Blacklist angesehen, eben nichts über die Güte aussagt!
Und wenn man über den Graphen nachdenkt (auch wenn man im Hinterkopf hat, das die meisten oder alle Benutzer sie zur Spam-Bekämpfung einsetzen), dann sagt die Graphik eben nur, das ~50% aller Anfragen negativ beantwortet werden, weiter nichts. Das sagt _nichts_ über die Richtigkeit dieser Antworten, das sagt _nichts_ über den Erfolg und das spricht zwar für sich, sagt aber nichts aus...
nighthawk
die trefferquote von manuels blacklist lag jahrelang bei 10 bis 15%. nach der kuerzlichen aufnahme weiterer spamfallen war sie auf ca. 30% gestiegen und nun liegt sie anscheinend bei durchschnittlich 50%. je naeher sich diese blacklist der tatsaechlichen quote annaehert, desto besser ist dessen wirksamkeit. dabei muss man wieder wissen, dass diese liste nahezu keine false positives liefert. und genau das ist das schlagende argument gegen dein zufallsprinzip.
Manuel Schmitt (manitu)
flo
Bert Ungerer
Manuel Schmitt (manitu)
nohoff
Der mailserver bekommt eine email und überprüft die DNS des absenders mit hilfe der DNSBL wenn die DNS der BL als Spammer bekannt is gilt es als treffer wenn nicht dann nicht.
Verstanden?
Bert Ungerer
Außerdem ist es eine einigermaßen anerkannte Tatsache, dass derzeit etwa 90 % aller E-Mails Spam transportieren, also 10 % keinen Spam. Wer also unsere Blacklist zum Vorsortieren benutzt, steigert das Verhältnis erwünscht:unerwünscht von 1:9 (11 %) auf 1:4 (25%). Das wirkt im Vergleich zu Werten gut trainierter Bayes- oder aktueller Virenfilter nicht aufregend, kann aber dennoch die Mailsysteme deutlich entlasten.
Stephen
Weitere Filtermechanismen setzen wir serverseitig schon gar nicht mehr ein.
Feine Sache das ist
Alexander Langer
Die Arbeit hätte ich mir sparen können, hätte ich schon früher policyd-weight angeschaut. Das Ding konnte ich nach dem Prinzip Fire&Forget einbinden und ohne händische Änderungen durchlaufen lassen. Die Grundeinstellungen sind extrem gut. Bei PW ist Sorge dafür getragen, dass der Eintrag in einer einzigen RBL allein nicht für den Reject sorgt. Damit minimiert man die Fehlqerquote nochmals und ich habe eine noch höhere Reject-Quote auf dem Server, als ich sie vorher mit allen händischen Parametern und RBLs hatte (obwohl ich monatelang haufenweise Tutorials und Dokus gewühlt hatte ).
Claus
-> /usr/sbin/traceroute: unknown host ix.dnsbl.manitu.net
Manuel Schmitt (manitu)
- die Webseite liegt unter www.dnsbl.manitu.net
- die Einträge unter D.C.B.A.ix.dnsbl.manitu.net
Stephen
Und wieder einer, der das Prinzip nicht verstanden hat.