Regex-Sex

Für unsere Kunden haben wir häufiger das Problem, dass man den Traffic über Erotik-Keywords filtern möchte. Das ist Traffic, der in der Regel nicht toll konvertiert und daher meistens unspannend ist. Ist ja auch klar: Menschen, die gerade eine Vorlage zur Befriedigung spezieller Bedürfnisse suchen sind in der Regel gerade nicht auf einer Shopping-Tour oder auf der Suche nach interessanten Nachrichten aus Wissenschaft, Gesellschaft und Politik.

Daher hab ich mir – quick und dirty – einen kleinen regulären Ausdruck gebastelt, der die häufigsten Anfragen und Keywords zu Erotik-Themen abdeckt. Durch das durchgehen eines Fallbeispiels musste ich dafür noch nicht mal groß den Kopf anstrengen und mir überlegen, wonach man suchen würde, sondern konnte einfach etwas bauen, was die meisten Suchanfragen beinhaltet (Daher ist die Reihenfolge auch zufällig, war ja kein strukturiertes Vorgehen):

br[üue]+st|busen|nackt|sex|les[bp](e|isch|ian)|geil|tit+en|blasen|porn|eroti[gck]|fick|erotisc?h|[aä]rsch|nip+el|bum+sen|strip+|pop+en|f[au]ndorado|fkk|nudist|luder|intim|amat[öeu]+r|squirt|nackig|strapse|m[öoe]+p?se|[vf][oeö]+geln|boobs|penis|luder|schlampe|stellungen|maste?u?r?u?bie?ren|petting|fetisc?h|pervers|puss[iy]|[vf]otze|youp[ro]+n|orgasmu?s?|tits|titt[es]|wichs|sperma|adult|gangbang|(beate[- ]{0,2}uhse)|blow[- ]{0,2}job|cunt|cum |dil+do|dolly[- ]{0,2}b[au]ster|domina|anal|muschi|schwanz|gina[- ]{0,2}wild|hardcore|jen+a[ -]{0,2}j[ae]me?s[oe]n|kam+a[zs]utra|vibrator|naked

Zur Erklärung (In der Firma hieß es, das sieht nach Sonnenstich aus):

  • | – Trennt die Begriffe von einander. Es werden auch (zumindest in Analytics, für andere Tools müsste man etwas umbauen) sämtliche Kombinationen mit dem Begriff gefiltert
  • [] – Fasst Buchstaben zusammen
  • + – gibt an, dass der vorangegangene Ausdruck (Buchstabe oder Buchstabengruppe) mindestens einmal, gern auch öfter gefunden werden darf
  • ? – gibt an, dass der vorangegangene Ausdruck vorkommen kann, aber nicht muss
  • {0,2} – gibt an, dass der vorangegangene Ausdruck mindestens 0 Mal, maximal 2 Mal gefunden werden soll

Wie gesagt, die RegEx ist fix zusammengeschraubt und geht bestimmt auch schöner, wenn man die mal häufiger braucht.

Bei der Verwendung ist ein wenig Vorsicht geboten. Schließlich werden auch Dinge mitgefiltert, wie „Wie geil ist das denn?“ oder „Ich habe einen sexy-Vornamen“.

Wenn mir Jemand eine schöne Blacklist gibt, dann bau ich die RegEx auch mal um für regelmäßige Verwendung.

ps: Hiermit ist das Blog jetzt offiziell Sex-verseucht.

Bullshit-Backlinks

Just for fun habe ich mir vorhin mal die Backlinks auf dieses Blog angesehen. Ich bin ein klein wenig entsetzt. Ich hab mir nie Gedanken über die Verlinkung dieses Blogs gemacht. Genau wie ich mir auch eigentlich nie Gedanken über die Besucherzahlen Gedanken gemacht habe.

Die Anzahl verlinkender amerikanischer Domains hat mich aber wirklich ein wenig überrascht. Insgesamt geben mir die Google Webmaster Tools 664 unterschiedliche Links auf das Blog aus (natürlich stimmen die Zahlen nicht wirklich, von stecki.de wird zum Beispiel nur ein Link ausgegeben, es gibt aber deutlich mehr…).

Diese Links verteilen sich auf etwa 80 Domains. Etwa 10% der Links kommen von nervigen Personensuchmaschinen (yasni, 123people). Ein Drittel der Links kommt von unseriösen amerikanischen Seiten. Kaum welche dieser Links sind noch verfügbar. Die meisten Domains lassen keinen Zugriff über das Webarchive zu. Offensichtlich wurde gezielt versucht Trackbacks auf das Blog zu faken und darüber Backlinks zu bekommen. Putzigerweise hab ich bisher überhaupt nichts davon mitbekommen und es hat auch nicht funktioniert. Dennoch ist die Methode herrlich dreist und die Links sind auch eigentlich nicht besonders wertvoll. Aber was solls. Es ist nervig. Aber nicht so nervig wie automatisierter Contentklau, mit dem man ja auch immer wieder mal zu kämpfen hat.

Ansonsten freu ich mich natürlich über einige tolle Verweise auf diese Seite, bin aber von der Qualität der Daten aus den Google Webmaster Tools etwas enttäuscht. Die Datenqualität lässt durchaus zu wünschen übrig und es gibt einige Tools auf dem freien Markt, die zumindest für diese Domain teilweise bessere Daten liefern kann.