Die Technologie hinter dem Google-Ranking

Montag, 21. Juli 2008

In meinem vorherigen Post habe ich die Philosophie, die hinter dem Google-Ranking steht, vorgestellt. Als Teil unserer Bemühungen, Search Quality vorzustellen, möchte ich euch mehr über die Technologie mitteilen, die hinter unserem Ranking steht. Die Kerntechnologie unseres Ranking-Systems leitet sich aus dem akademischen Bereich des Information Retrieval (IR) ab. Die IR-Community hat Search nun fast 50 Jahre studiert. Sie verwendet statistische Signale zur Erkennung von Schlüsselwörtern, wie etwa Worthäufigkeit, um Seiten zu ranken. (Siehe auch "Modern Information Retrieval: A Brief Overview" , um einen schnellen Überblick über IR-Technologie zu bekommen.) IR hat uns eine solide Grundlage geliefert und wir haben darüber hinaus ein großartiges System geschaffen, indem wir Links, Seitenstruktur und viele weitere solcher Innovationen genutzt haben.

Search ist in den letzten Jahrzehnten weggerückt von Gib mir, was ich gesagt habe hin zu Gib mir, was ich möchte . Die Erwartungen, die User an Search haben, sind zu Recht angewachsen. Wir arbeiten hart, um die Erwartungen jedes einzelnen Users zu erfüllen, und um dies zu erreichen, müssen wir ein besseres Verständnis für die Seiten, die Suchanfragen und unsere User selbst entwickeln. Über das letzte Jahrzehnt hinweg haben wir die Technologien, die für das Verständnis dieser drei Komponenten (des Suchprozesses) zuständig sind, in komplett neue Dimensionen geführt.

Wenn wir über Suchanfragen an Google sprechen, dann verwenden wir eckige Klammern [ ], um den Anfang und das Ende einer Suchanfrage zu kennzeichnen (seht
"How to write queries" von Matt Cutts). Ich werde diese Art der Kennzeichnung durchgehend in meinem Post verwenden. (Seiten und Suchergebnisse ändern sich häufig, so dass eventuell im Laufe der Zeit einige der hier verwendeten Beispiele nicht mehr wie erwartet funktionieren werden.)
  • Seiten verstehen: Wir haben über viele Jahre intensiv in unser System zum Crawlen und Indexieren investiert. Als Ergebnis haben wir einen äußerst großen und sehr aktuellen Index. Abgesehen von Größe und Aktualität haben wir unseren Index auch auf andere Weise verbessert. Eine der Schlüsseltechnologien, die wir entwickelt haben, um Seiten zu verstehen, ist es, wichtige Konzepte mit einer Seite zu assoziieren, auch wenn diese auf der Seite nicht offensichtlich sind. Wir finden die offizielle Homepage für die Sprovieri Gallery in London für die italienische Suchanfrage [ galleria sprovieri londra ], auch wenn die offizielle Seite weder "London" noch "Londra" enthält. In den USA findet ein User, der nach [cool tech pc vancouver, wa] sucht, die Homepage www.cooltechpc.com , auch wenn die Seite nirgendwo erwähnt, dass sie sich in Vancouver, WA befindet. Andere Technologien, die wir entwickelt haben, sind z. B. die Unterscheidung von wichtigen und weniger wichtigen Wörtern auf einer Seite sowie die Aktualität der Informationen auf der Seite.
  • Suchanfragen verstehen: Es ist wichtig, dass wir verstehen, wonach unsere User suchen - und zwar über die paar Wörter in ihrer Suchanfrage hinaus. Wir haben einige bemerkenswerte Fortschritte auf diesem Gebiet gemacht, wie z. B. die Implementierung eines erstklassigen Systems von Rechtschreibvorschlägen, eines fortschrittlichen Synonymsystem und eines mächtigen Systems zur Analyse von Konzepten.
Die meisten User haben bereits einmal unser System für Rechtschreibvorschläge verwendet. Es erkennt, dass jemand, der nach [ kofee annan ] sucht, eigentlich nach "Herrn Kofi Annan" sucht, und es wird dementsprechend Folgendes ausgegeben: Meinten Sie: kofi annan . Jemand, der hingegen [ kofee beans ] eingibt, sucht eigentlich nach "coffee beans". Es ist sehr schwierig, all dies mit hoher Präzision auf internationaler Ebene zu bewerkstelligen, und wir meistern es gut.

Synonyme bilden die Grundlage unserer Arbeit daran, Suchanfragen zu verstehen. Es ist eins der schwierigsten Probleme, die wir in Google lösen. Etwas, das mitunter ganz offensichtlich für Menschen ist, kann ein ungelöstes Problem für die automatisierte Sprachverarbeitung darstellen. Als User möchte ich nicht zu viel darüber nachdenken, welche Begriffe ich genau in meiner Suchanfrage verwenden sollte. Oft weiß ich nicht einmal genau, welches die richtigen Begriffe sind. Dies ist die Stelle, an der unser Synonymsystem in Kraft tritt. Unser Synonymsystem kann anspruchsvolle Modifikationen von Suchanfragen vornehmen, so wei ß es beispielsweise, dass das Wort "Dr" in der Suchanfrage [ Dr Zhivago ] für Doctor steht, wohingegen es in [ Rodeo Dr ] Drive bedeutet. Ein User, der nach [ back bumper repair ] sucht, erhält Ergebnisse über " rear bumper repair". Für [ Ramstein ab ] suchen wir automatisch nach Ramstein Air Base - für die Suchanfrage [ b&b ab ] jedoch suchen wir nach Bed and Breakfasts in Alberta , Kanada. Wir haben dieses Niveau für das Verständnis von Suchanfragen für beinahe hundert verschiedene Sprachen erreicht - etwas, auf das ich sehr stolz bin.

Eine andere Technologie, die wir in unserem Ranking-System verwenden, ist das Identifizieren von Konzepten. Wichtige Konzepte in der Suchanfrage zu identifizieren hilft uns dabei, viel mehr an relevanten Ergebnissen zu liefern. Unser Algorithmus versteht z. B., dass der User mit der Suchanfrage [ new york times square church ] nach der bekannten Kirche auf dem Times Square [ well-known church in Times Square ] sucht, und nicht nach Artikeln der New York Times . Es reicht für uns nicht allein aus, Konzepte zu verstehen - darüberhinaus reichern wir die Suchanfrage mit den richtigen Konzepten an. Jemand, der beispielsweise nach [ PC and its impact on people ] sucht, möchte eigentlich gerne Ergebnisse zu impact of computers on society erhalten, oder jemand, der [ rainforest instructional activities for vocabulary ] eingibt, sucht eigentlich nach rain forest lesson plans . Unser Algorithmus für die Analyse von Suchanfragen hat viele dieser modernsten Techniken eingebaut, und auch hier funktioniert dies auf internationaler Ebene in beinahe jeder Sprache, die wir unterstützen.
  • User verstehen: Unsere Arbeit daran, die Intention von Usern zu interpretieren, zielt darauf ab, Usern Ergebnisse auszugeben, die sie wirklich möchten, anstatt ihnen nur das zu liefern, was sie in ihrer Suchanfrage formuliert haben. Diese Arbeit beginnt mit einem erstklassigen Lokalisierungssystem, hinzukommend zu unserer fortschrittlichen Personalisierungstechnologie sowie anderen großartigen Fortschritten, die wir dabei gemacht haben, die Intention von Usern zu interpretieren, wie z. B. Universal Search.
Unser klarer Fokus darauf, "die besten lokal relevanten Ergebnisse global anzubieten", spiegelt sich in unserer Arbeit im Bereich Lokalisierung wieder. Stellt ihr dieselbe Suchanfrage in verschiedenen Ländern, so erhaltet ihr möglicherweise komplett unterschiedliche Ergebnisse. Ein User, der nach [ bank ] in den USA sucht, sollte amerikanische Banken als Ergebnis erhalten, wohingegen ein User in Grossbritannien entweder nach der Modemarke "Bank" oder nach britischen Geldinstituten sucht. Als Ergebnis für diese Suchanfrage sollten lokale Geldinstitute auch in anderen englischsprachigen Ländern wie Australien , Kanada , Neuseeland oder Süd-Afrika ausgegeben werden. Der Spaß fängt eigentlich dann an, wenn diese Suchanfrage in nicht-englischsprachigen Ländern wie Ägypten , Israel , Japan , Russland , Saudi-Arabien und der Schweiz gestellt wird. Ebenso bezieht sich die Suchanfrage [football] auf ganz unterschiedliche Sportarten in Australien , in Grossbritannien und den USA . Diese Beispiele zeigen hauptsächlich, wie wir die lokalisierte Version desselben Konzepts korrekt ausgeben können (Geldinstitute, Sport, etc.). Dieselbe Suchanfrage kann jedoch in verschiedenen Ländern eine ganz andere Bedeutung haben. So ist [Côte d'Or] z. B. eine geografische Region in Frankreich - im benachbarten französischsprachigen Belgien ist es jedoch ein großer Schokoladenhersteller. Und ja, auch das bekommen wir richtig hin! :-)

Personalisierung ist ein anderes mächtiges Feature in unserem Suchsystem, das Suchergebnisse auf einzelne User zurechtschneidet. User, die während ihrer Suche eingeloggt sind und sich für das Webprotokoll angemeldet haben, erhalten Suchergebnisse, die für sie von höherer Relevanz sind als die normalen Google-Suchergebnisse. So könnte beispielsweise jemand, der viele fussballbezogene Suchanfragen stellt, mehr fussballbezogene Suchergebnisse für [giants] erhalten, wohingegen andere User eventuell eher Ergebnisse bezogen auf das Baseball-Team bekommen. Ebenso ist es wahrscheinlich, dass ihr, sofern ihr gerne Ergebnisse von einer bestimmten Einkaufs-Site bekommt, Ergebnisse von genau dieser Site erhaltet, wenn ihr nach Produkten sucht. Unsere Evaluierung zeigt, dass User, die personalisierte Ergebnisse erhalten, diese gewöhnlich als relevanter empfinden als nicht-personalisierte Ergebnisse.

Ein Fall, der zeigt, welche Rolle die Intention des Users spielt, kann am Beispiel der Suchanfrage [ chevrolet magnum ] beobachtet werden. Magnum wird faktisch von DodgeChevrolet hergestellt. Dementsprechend zeigen wir in den Ergebnissen für Dodge Magnum den Hinweis Ergebnisse anzeigen für: dodge magnum .

Unsere Arbeit an Universal Search ist ein anderes Beispiel dafür, wie wir die Intention unserer User interpretieren, um ihnen das zu liefern, was sie (mitunter) wirklich wollen. Wer nach [ bangalore ] sucht, bekommt nicht nur die wichtigen Webseiten, sondern erhält auch eine Landkarte, ein Video über das Straßenbild und den Verkehr etc. in Bangalore - wenn ich dieses Video anschaue, habe ich beinahe das Gefühl, dort zu sein :). Und zu dem Zeitpunkt, zu dem die Suchanfrage verfasst wird, gibt es wichtige Nachrichten und Blogs über Bangalore.

Lasst mich schließlich kurz unseren neuesten Fortschritt im Bereich Search erwähnen: Cross Language Information Retrieval (CLIR). CLIR erlaubt es Usern, zuerst Informationen zu entdecken, die nicht in ihrer Sprache sind - als zweiten Schritt machen wir diese Informationen zugänglich, indem wir Googles Übersetzungstechnologie verwenden. Ich nenne diesen Fortschritt: Gib mir, was ich möchte , in jeder Sprache. Ein User, der nach Tony Blairs Biographie in Russland sucht und Suchanfragen auf Russisch eingibt [ Тони Блэр биография ], wird an das Ende unserer Suchergebnisse verwiesen, um das englische Web zu durchsuchen mit:



Ein ähnliches Beispiel in diesem Zusammenhang ist, dass ein User, der in Ägypten mit der Suchanfrage [ أغاني أفلام ديزني ] nach Liedern von Disney-Filmen sucht, zur englischen Websuche verwiesen wird. Wir freuen uns sehr über CLIR, da es uns unserer Mission näherbringt, die Informationen der Welt zu organisieren und allgemein nutzbar und zugänglich zu machen.

Ich könnte damit fortfahren und noch mehr Beispiele von modernster Technologie hervorbringen, die wir entwickelt haben, um unser Ranking-System so gut, wie es jetzt ist, zu machen. Fakt ist jedoch, dass Search noch weit davon entfernt ist, ein gelöstes Problem zu sein. Viele Suchanfragen erhalten immer noch kein befriedigendes Resultat von Google, und jede Suchanfrage ist eine Möglichkeit, um unser Ranking-System zu verbessern . Ich bin zuversichtlich, dass wir mit zahlreichen Techniken, die in unserer Gruppe entwickelt werden, bald eine starke Verbesserung unseres Ranking-Algorithmus erreichen können.

Ich hoffe, dass meine beiden Posts über das Google-Ranking deutlich gemacht haben, dass wir sehr von Search begeistert sind und überaus passioniert daran arbeiten. Wir haben einen großen Eifer dafür entwickelt, allen unseren Usern weltweit zu nutzen. Wir sind stolz darauf, über ein sehr gutes Ranking-System zu verfügen, und wir arbeiten tagtäglich hart daran, es noch besser zu machen.

Technologies behind Google ranking (English version)