Wie funktioniert SafeSearch?

Freitag, 17. Februar 2012


In diesem Video gibt Matt Cutts Einblicke, wie der SafeSearch-Filter Inhalte als sexuell explizit erkennt.



Die heutige Frage kommt aus Zürich. Gary möchte wissen: "Wie funktioniert SafeSearch für Text und Bilder?"

Ich habe die erste Version von SafeSearch für Text mitentwickelt. Betrachten wir daher diesen Teil. Ich möchte Spammern keine Hilfestellungen geben, aber ich kann·aus dem Jahr 2000 berichten, um euch einen Eindruck zu geben. Mit SafeSearch möchten wir Gewichtungen für Suchbegriffe festlegen.

Viele Wörter mit einer großen Gewichtung weisen dann auf pornografische Inhalte oder Ähnliches hin. Wir können auch Schwellenwerte festlegen, die nach ersten Ergebnissen zu diesem Wort weitere Ergebnisse unterdrücken.

Es gibt auch Unterschiede: Ein unangemessenes Wort in einem ganzen Buch wird nicht so schwer gewichtet wie das gleiche Wort in einem sehr kurzen Text. Andere Wörter weisen deutlicher auf pornografischen Inhalt hin. Bestimmte Tippfehler wie A-M-A-T-U-R-E statt "Amateur" verweisen eher auf pornografische Websites als beispielsweise auf Amateurradio.

Doch Vorsicht: Manche Wörter sind nicht so eindeutig. Denn Brust kann auch für Brustkrebs stehen und Sex für Sexualkunde. Wir müssen daher lernen, welche Gewichtung wir einem Wort geben sollten. Das ist ziemlich anspruchsvoll. Bloß Inhalte analysieren oder einzelne Wörter festlegen reicht nicht aus. Aber es ist ein guter erster Schritt, um Inhalte als pornografisch einzustufen.

Wenn eure Website fälschlicherweise als pornografisch eingestuft wurde oder ihr einen Fehler bei SafeSearch gefunden habt, könnt ihr das über diesen Link melden . Dann können die Algorithmen angepasst oder andere Funktionen verbessert werden, damit interessante Websites nicht als pornografisch bewertet werden.

Doch es ist überraschend, wie bereits mit relativ einfachen Gewichtungen viele pornografische Inhalte im Web aussortiert werden können. Ein kurzer Rückblick: Die ersten Suchmaschinen wie AltaVista haben im Jugendschutzmodus für das Wort "Sex" höchstens zwanzig Treffer angegeben. Sie haben entweder die Anzahl der Suchergebnisse eingeschränkt oder nur diese Ergebnisse als sicher eingestuft.

Google hat einen anderen Ansatz. Wir haben überlegt, ob eine Mutter mit ihrem kleinen Sohn von solchen Suchergebnissen überrascht oder darüber verärgert wäre. Man möchte natürlich vom großen Angebot des Webs profitieren: Einerseits möchte man das gesamte Web durchsuchen und pornografische Inhalte ausschließen. Andererseits sollen Ergebnisse für Sexualkunde und Ähnliches angezeigt werden. Das ist ein guter Ansatz, der auch gut funktioniert hat. Zum Glück gibt es nun viel bessere Programmierer, die noch detailliertere Analysen durchführen, und mein Programm aus dem Jahr 2000 sicher gründlich überarbeitet haben.


Veröffentlicht von Uli Lutz , Search Quality