Funktionsweise

Eine herkömmliche Suchmaschine besteht im Wesentlichen aus folgenden Komponenten. Ein URL-Server, mehrere Crawler (Bots, Robots, Spider), einem Parser sowie einem Store Server.

Der URL-Server einer Suchmaschine verwaltet die Internetadressen (URLs) welche noch nicht in den Index aufgenommen wurden. Anmeldungen einzelner Webseiten bei Suchmaschinen werden also zunächst einmal an deren URL-Server übermittelt. Der URL-Server sammelt die URLs, ordnet diesen eine IP-Adresse zu und gibt die Daten dann nach und nach an die einzelnen Crawler weiter.

Die Crawler einer Suchmaschine treten mit dem jeweiligen Servern der vom URL-Server übermittelten IP-Adressen in Verbindung und bitten nun darum, die entsprechenden URLs besuchen zu dürfen. Um die Dauer der Datenübertragung zu verkürzen bzw. die Server nicht unnötig zu überlasten, öffnet ein Crawler gleich mehrere Hundert Verbindungen zu unterschiedlichen URLs gleichzeitig. Treten bei einer Verbindung Probleme auf, kann schnell und ohne großen Zeitverlust auf die nächste Verbindung zugegriffen werden. Durch dieses "Rotationsverfahren" kann ein einzelner Crawler mehr als 100 neue URLs bzw. Webseiten pro Sekunde erfassen. Nach erfolgreicher Datenübertragung liefert ein Crawler die von ihm erfassten Daten dann dem Parser.

Der Parser einer Suchmaschine erstellt von jeder neu gefundenen Webseite eine stark vereinfachte "Matrix" und leitet diese an den Store Server weiter. Der Store Server wiederum hat nun die Aufgabe, die in den vereinfachten Versionen der gefundenen Webseiten enthaltenen Informationen bzw. Veränderungen zu extrahieren. Auf den Webseiten enthaltene Links werden erneut an den URL-Server übermittelt und die enthaltenen Informationen (Texte, Bilder-URLs usw.) werden, sofern sie noch nicht bekannt sind, dem Index bzw. Lexicon hinzugefügt.

Der Index einer Suchmaschine besteht vereinfacht gesagt aus dem Lexicon, den Hit-Lists und einem Repository. Das Lexicon ist eine in Form einer Hashtabelle gespeicherte Sammlung sämtlicher bislang im World Wide Web gefundener Begriffe. Nur Begriffe welche im Lexicon enthalten sind liefern auch "eigenständige" Suchergebnisse. Jeder Begriff bzw. jedes Wort des Lexicons enthält einen Vermerk auf die entsprechende Hit-List. Die Hit-Lists enthalten zu jedem Wort bzw. zu jeder Suchanfrage entsprechende Verweise auf die im Repository verwalteten URLs. Parallel dazu wird in den Hit-Lists auch vermerkt, welche Bedeutung bzw. Relevanz den einzelnen im Repository verwalteten Webseiten in Bezug auf die im Lexicon gespeicherten Begriffe bzw. Suchwörter zukommt.

Um mit einer Suchmaschine überhaupt erst interagieren zu können, verfügt jede Suchmaschine über ein Frontend bzw. einen Searcher. Das Frontend einer Suchmaschine ist nichts anderes als die sichtbare Komponente einer Suchmaschine, im Prinzip also fast nur deren Eingabeschlitz. Stellt ein Benutzer eine Suchanfrage, zeigt der Searcher eine aus dem Lexicon, den Hit-Lists und einigen anderen Faktoren (Suchhistorie, Regionalität usw.) erstellte Ergebnisliste.

Jede bekannte Suchmaschine verwendet ihren eigenen Algorithmus. Der mathematische Algorithmus ist das eigentliche Herzstück einer Suchmaschine. Er setzt sich aus Hunderten von "Faktoren" zusammen, welche allesamt darüber entscheiden, an welcher Ergebnisposition eine Webseite bezüglich einer bestimmten Suchanfrage bestmöglich gelistet werden kann...

zurück weiter