Datennutzung zur Bekämpfung von Webspam

Dienstag, 1. Juli 2008

Als Leiter des Google Webspam Teams ist es meine Aufgabe sicherzustellen, dass eure Suchergebnisse so relevant und informativ wie möglich sind. Als Webspam bezeichnen wir den Schrott, den ihr in den Suchergebnissen sehen könnt, wenn es Websites gelingt, mittels Tricks eine hohe Position in den Suchergebnissen zu erschleichen oder anderweitig gegen unsere Qualitätsrichtlinien verstoßen. Falls ihr noch nie Webspam gesehen habt, findet ihr hier ein gutes Beispiel dafür, was sich hinter einem Link verbergen kann, der zu Spam führt (klickt auf das Bild für eine größere Version).


Es ist offensichtlich, wie wenig hilfreich eine solche Seite ist. Das Beispiel beinhaltet so gut wie keinen organischen Content und bietet kaum nützliche Informationen für die User. Wir arbeiten hart daran, dass ihr solche Suchergebnisse nur selten zu Gesicht bekommt. Stellt euch vor, wie frustrierend es für euch wäre, auf einen Link in unseren Suchergebnissen zu klicken und schließlich auf einer derartigen Site zu landen.

Heutzutage begegnet den Suchenden solch offensichtlicher Spam nur noch selten in den Ergebnissen. Webspam war noch ein wesentlich größeres Problem, bevor Google populär wurde und bevor es uns gelang, effektive Anti-Spam-Methoden zu entwickeln. Webspam kann generell recht frustrierend sein, wenn beispielsweise die Suche nach dem eigenen Namen als Ergebnis lauter Links zu Seiten mit pornografischem Content liefert. Es gibt jedoch auch zahlreiche Suchvorgänge, bei denen es noch viel wichtiger ist, relevante Suchergebnisse zu erhalten, und wo Spam ein ernstes Problem darstellt. Wenn z. B. eine Suche nach Prostatakrebs überwiegend Spam anstelle von relevanten Links liefert, dann mindert das erheblich den Nutzen einer Suchmaschine als hilfreiches Tool.

Die Logs aus früheren Suchvorgängen sind ein Werkzeug, das wir nutzen, um Webspam zu bekämpfen und sauberere und relevantere Ergebnisse zu liefern. Archivierte Daten wie z. B. IP-Adressen und Cookie-Informationen ermöglichen es uns, Bewertungsgrundlagen zu erstellen, anhand derer wir die verschiedenen Aspekte unserer Suchqualität messen können (wie z. B. Indexgröße und Reichweite, die "Frische" der Ergebnisse und Spam).

Wann immer wir eine neue Bewertungsgrundlage erstellen, ist es wichtig, dass wir dazu unsere archivierten Daten aus früheren Suchanfragen oder Ergebnisseiten zur Berechnung der neuen Spam-Daten nutzen. Wir nutzen unsere archivierten Suchdaten, um einen Blick in die Vergangenheit zu werfen, damit wir ermitteln können, wie gut wir bei Suchanfragen von vor einigen Monaten waren. Wenn wir eine neue Bewertungsgrundlage erstellen, um eine neue Art von Spam genauer zu erfassen, dann messen wir nicht nur unsere diesbezüglichen Fortschritte, sondern werten auch die archivierten Daten aus, um festzustellen, wie gut wir mit dieser Art von Spam in den vorigen Monaten und Jahren umgegangen sind.

Die Informationen bezüglich IP-Adresse und Cookies sind für uns wichtig, da sie uns dabei helfen, die oben beschriebenen Methoden nur auf Suchanfragen von "echten" Usern anzuwenden - im Gegensatz zu Suchanfragen, die z. B. durch Bots generiert wurden. Wenn beispielsweise ein Bot ununterbrochen identische Suchanfragen an Google richtet, dann sollten diese eher vernachlässigt werden, wenn wir ermitteln, wie viel Spam unsere User zu Gesicht bekommen. Dies alles – archivierte Suchdaten, IP-Adressen und Cookie-Daten – sorgt dafür, dass eure Suchergebnisse sauberer und relevanter werden.

Falls ihr glaubt, das Problem des Webspam wäre bereits gelöst, dann irrt ihr euch. Letztes Jahr hatten wir mit einem riesigen Anstieg von chinesischen Spam-Domains zu kämpfen. Einige Spammer kauften riesige Mengen billiger .cn-Domains und packten sie voll mit Schreibfehlern und pornografischen Begriffen . Die eingefleischten Webmaster unter euch können sich wahrscheinlich an diverse Blogposts darüber erinnern, aber die meisten User haben davon überhaupt nichts mitbekommen. Der Grund, weshalb die meisten User unserer Suche diese ungewöhnlichen Suchergebnisse gar nicht bemerkten, ist, dass wir den .cn-Spam frühzeitig erkannt und diesem mit schnell eingeleiteten Entwicklungsmaßnahmen entgegengewirkt haben. Ohne die Logdaten, mit deren Hilfe wir mehr über die Geschwindigkeit und den Umfang des Problems erfahren konnten, wären sicher deutlich mehr Google-User von dieser Spam-Attacke betroffen gewesen.

Im Idealfall braucht die große Mehrzahl unserer User gar nicht zu wissen, dass es bei Google ein Webspam Team gibt. Wenn wir unsere Arbeit gut machen, dann seht ihr vielleicht von Zeit zu Zeit mal ein paar Resultate von minderer Qualität, aber irreführende JavaScript-Weiterleitungen, unerwünschte pornografische Inhalte, Seiten mit unzusammenhängendem Kauderwelsch oder andere Arten von Spam bleiben euch verborgen. Eure archivierten Suchanfragen helfen uns, neue Spam-Trends zu erkennen und an entsprechenden Gegenmaßnahmen zu arbeiten, noch bevor der Spam die Qualität eurer Sucherfahrung mindert.

Using data to fight webspam (English version)

Post von Matt Cutts, Software-Ingenieur (Übersetzung von Sven, Search Quality)