Eine Einführung in Google Search Quality

Montag, 26. Mai 2008

Search Quality ist der Name des Teams, welches für das Ranking der Google Suchergebnisse verantwortlich ist. Unsere Aufgabe ist eindeutig: Einige hundert Millionen Mal am Tag stellen User Anfragen an Google, und innerhalb eines Bruchteils einer Sekunde muss Google entscheiden, welche unter den Milliarden an Seiten im Netz angezeigt werden sollen - und in welcher Reihenfolge. In letzter Zeit haben wir auch an anderen Dingen gearbeitet, aber dazu später mehr.

Dafür, dass es so oft von so vielen Leuten benutzt wird, ist erstaunlich wenig über Googles Ranking bekannt. Die Schuld liegt hier vollkommen bei uns, und das ist auch beabsichtigt. Wir halten uns ehrlich gesagt ziemlich bedeckt im Hinblick darauf, was wir tun. Dafür gibt es zwei Gründe: die Konkurrenz und den Missbrauch. Hinsichtlich der Konkurrenz ist es ziemlich eindeutig. Keine Firma will der Konkurrenz Einsicht in ihre Geheimrezepte geben. Was Missbrauch angeht, so würden wir es für Leute einfacher machen das System zu hintergehen, falls wir die Rankingformeln zu offen legen würden. Sicherheit durch Unklarheit ist nie das stärkste Mittel, und wir verlassen uns auch nicht ausschließlich darauf, aber es verhindert einen Großteil des Missbrauchs.


Die Details des Rankingalgorithmus sind in vieler Hinsicht Googles Kronjuwelen. Wir sind sehr stolz auf sie und hüten sie wie unseren Augapfel. Grob geschätzt, sind mehr als 1000 Jahre Arbeit von Programmierern und Wissenschaftlern allein auf ihre Entwicklung verwendet worden, und die Innovationsrate hat sich nicht verlangsamt.


Jedoch ist es nicht ideal, vollkommene Unklarheit beizubehalten, und dieser Blog ist Teil eines wiederaufgenommenen Versuchs uns etwas mehr zu öffnen, als wir es in der Vergangenheit getan haben. Wir werden euch in Abständen über neue Entwicklungen berichten, alte Dinge erklären, Tipps geben, Neuigkeiten mitteilen und in Dialog treten. Lasst mich mit einigen allgemeinen Informationen über unseren Bereich beginnen. Weitere Blogposts werden folgen.


Ich möchte mich kurz vorstellen: Mein Name ist Udi Manber, und ich bin Engineering VP bei Google und verantwortlich für Search Quality. Ich bin seit mehr als zwei Jahren bei Google und bin seit fast 20 Jahren im Bereich Suchtechnologie tätig.


Das Herz unseres Bereichs ist das Team, das am Kern des Ranking arbeitet. Ranking ist eine schwierige Sache - viel schwieriger als den meisten bewusst ist. Einer der Gründe dafür ist, dass Sprachen von Natur aus nicht eindeutig sind, und Dokumente keinen festen Regeln folgen. Es gibt tatsächlich keine Standards dafür, auf welche Weise Informationen übermittelt werden, weshalb wir alle Webseiten verstehen müssen, egal von wem und für welchen Zweck sie geschrieben wurden. Und dies ist erst ein Teil des Problems. Wir müssen zudem die Anfragen der User verstehen, welche im Schnitt weniger als drei Wörter ausmachen, und wir müssen diese Anfragen nach unserem besten Verständnis mit allen Dokumenten verknüpfen. Ganz abgesehen davon haben unterschiedliche User unterschiedliche Bedürfnisse. Und all das müssen wir in ein paar Millisekunden erledigen.


Der berühmteste Teil unseres Rankingalgorithmus ist PageRank , ein Algorithmus, der von den Google-Gründern Larry Page und Sergey Brin entwickelt wurde. PageRank wird heute noch gebraucht, aber er ist nur Teil eines viel größeren Systems. Andere Teile beinhalten Sprachmodelle (die Fähigkeit Sätze, Synonyme, diakritische Zeichen, Schreibfehler etc. zu interpretieren), Anfragemodelle (hier geht es ist nicht nur Sprache, sondern auch um die Art, in der sie heutzutage verwendet wird), Zeitmodelle (manche Anfragen sind mitunter am besten mit einer 30 Minuten alten Seite zu beantworten und manche sind besser mit einer alten und etablierten Seite bedient) sowie personalisierte Modelle (nicht alle Leute erwarten dasselbe).


Ein anderes Team unseres Bereichs ist dafür verantwortlich, zu bewerten, wie gut wir unsere Sache machen. Dies geschieht auf viele unterschiedliche Arten, aber das Ziel ist immer dasselbe: die Sucherfahrung unserer User zu verbessern. Dies ist nicht nur das Hauptziel, es ist sogar das einzige Ziel. Es finden minütlich automatisierte Evaluierungen statt (um sicherzustellen, dass nichts schief geht), zudem periodische Evaluierungen unserer gesamten Qualität, und, was am wichtigsten ist, Evaluierungen spezifischer algorithmischer Verbesserungen. Wenn ein Programmierer neue Ideen hat und einen neuen Algorithmus entwickelt, dann testen wir diese Ideen ausführlich. Wir haben ein Team von Statistikern, die auf alle Daten schauen und den Wert der neuen Idee bestimmen. Wir treffen uns wöchentlich (mitunter zweimal pro Woche) um diese neuen Ideen zu diskutieren und neue Markteinführungen zu befürworten. Im Jahr 2007 haben wir über 450 Verbesserungen eingeführt, im Schnitt also neun pro Woche. Manche dieser Verbesserungen sind einfach und offenkundig - beispielsweise haben wir die Art und Weise korrigiert, in der im Hebräischen Akronym-Anfragen gehandhabt wurden (im Hebräischen ist ein Akronym durch ein (") vor dem letzten Buchstaben gekennzeichnet - IBM wäre also IB"M). Andere Änderungen sind wiederum sehr kompliziert - beispielsweise haben wir im Januar einschneidende Änderungen im PageRank-Algorithmus vorgenommen. Meistens sind wir mit Verbesserungen der Relevanz beschäftigt, aber wir arbeiten ebenso an Projekten, deren einziger Zweck darin besteht, den Algorithmus einfacher zu gestalten. Einfach ist gut.


Die internationale Suche ist in den letzten beiden Jahren eine unserer größten Schwerpunkte gewesen. Damit beziehen wir uns auf alle gesprochenen Sprachen, nicht nur die größten. Letztes Jahr haben wir beispielsweise mehrere Verbesserungen im Aserbaidschanischen implementiert, welches von rund acht Millionen Menschen gesprochen wird. In den letzten Monaten haben wir die Rechtschreibprüfung für Estonisch, Katalanisch, Serbisch, Serbo-Kroatisch, Ukrainisch, Bosnisch, Lettisch, Tagalog, Slovenisch und Farsi gelauncht. Wir haben ein weltweites Netzwerk an Leuten zusammengestellt, über welches wir Feedback erhalten, und wir haben eine große Gruppe an Freiwilligen aus allen Bereichen von Google, die verschiedene Sprachen sprechen und uns dabei helfen, die Suche zu verbessern.


Ein anderes Team beschäftigt sich mit neuen Features und Userinterfaces. Für ein gutes Auto ist ein guter Motor notwendig, aber nicht ausreichend. Das Auto muss bequem und einfach zu fahren sein. Das Interface der Googlesuche ist sehr einfach. Sehr wenige unserer User lesen unsere Google-Hilfe , und sie kommen gut ohne sie zurecht (obwohl es sich trotzdem lohnt sie zu lesen, und wir arbeiten daran, sie zu verbessern.) Wenn wir neue Features hinzufügen, dann versuchen wir sicherzustellen, dass sie intuitiv und einfach von jedem zu benutzen sind. Eine der sichtbarsten Veränderungen, die wir im vergangenen Jahr gemacht haben, war die Universelle Suche . Andere sind beispielsweise Google Notizbuch , benutzerdefinierte Suchmaschinen , und natürlich viele Verbesserungen in iGoogle. Das UI-Team wird von einem Team von Usability-Experten unterstützt, die Studien durchführen und helfen, neue Features zu bewerten. Sie sind durch die ganze Welt gereist, und haben sogar User zu Hause besucht, um deren Gewohnheiten zu studieren. (Keine Sorge - unsere Mitarbeiter tauchen nicht unangemeldet und uneingeladen auf!)


Es gibt ein ganzes Team, das sich auf die Bekämpfung von Webspam und andere Arten von Missbrauch konzentriert. Dieses Team arbeitet an vielen Bereichen, von verborgenem Text über irrelevante Seiten, die mit unverständlichen Keywords vollgestopft sind, sowie viele andere Methoden, die anwendet werden, um höher in unseren Suchergebnissen zu ranken. Das Team erkennt neueste Spamtrends und arbeitet daran, diesen Trends effektiv entgegenzuwirken; wie auch alle anderen Teams, arbeitet es international. Die Webspamgruppe arbeitet eng mit dem Team der Google Webmaster-Zentrale zusammen, so dass sie ihre Erkenntnisse mit jedem teilen können und auch das Feedback von Webmastern in Betracht ziehen können.


Es gibt andere Teams, die sich speziellen Projekten widmen. Im Allgemeinen ist unsere Organisationsstruktur recht informell. Wir sind flexibel, und ständig entstehen neue Projekte.


Einer der Schlüsselaspekte der Suche ist, dass die Erwartungen der User schnell steigen. Die Anfragen von morgen werden schwieriger sein als die Anfragen von heute. Genau wie Moore's Gesetz alle 18 Monate eine Verdoppelung der Rechengeschwindigkeit besagt, gibt es ein unsichtbares, ungeschriebenes Gesetz, welches besagt, dass sich die Komplexität unserer schwierigsten Anfragen binnen kurzer Zeit verdoppelt. Dies ist unmöglich genau zu berechnen, aber wir können es alle bemerken. Wir wissen, dass wir uns nicht auf unseren Lorbeeren ausruhen können, wir müssen umso härter arbeiten, um den Herausforderungen standzuhalten. Wie ich bereits vorher erwähnt habe, werden wir euch über die nächsten Monate weitere Updates über Search Quality geben - stay tuned!

Introduction to Google Search Quality (English version)

Übersetzung von Claudia, Search Quality