Suchmaschine / Suchmaschinen [Internet-Agentur-Berlin]
Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die
in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide
Web gespeichert sind. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine
eine Liste von Verweisen auf möglicherweise relevante Dokumente,
meist dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments.
Dabei können verschiedene Suchverfahren Anwendung finden.
Die wesentlichen Bestandteile
bzw. Aufgabenbereiche einer Suchmaschine sind:
- Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen
über Dokumente),
- Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie
- Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.
In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler,
auf einem einzelnen Computer durch regelmäßiges Einlesen aller
Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.
Arten von Suchmaschinen
Websuchmaschinen sind die bekannteste Form von Suchmaschinen. Sie durchsuchen
das World Wide Web, das meistgenutzte Dateiformat ist hierbei HTML.
Metasuchmaschinen schicken Suchanfragen parallel an mehrere normale Suchmaschinen
und kombinieren die Einzelergebnisse zu einer Ergebnisseite. Als Vorteil
ist die größere (da kombinierte) zugrundeliegende Datenmenge
zu nennen. Ein Nachteil ist die lange Dauer der Anfragebearbeitung. Außerdem
ist das Ranking durch reine Mehrheitsfindung (welche Seite taucht in den
meisten verwendeten Suchmaschinen auf?) von fragwürdigem Wert. Metasuchmaschinen
sind vor allem bei selten vorkommenden Suchbegriffen von Vorteil.
Als Desktop-Suchmaschine werden neuerdings Programme bezeichnet, welche
den lokalen Datenbestand eines einzelnen Computers durchsuchbar machen.
Wird die Datenbeschaffung manuell mittels Anmeldung oder durch Lektoren
vorgenommen, handelt es sich nicht um eine Suchmaschine sondern um einen
Katalog (auch Verzeichnis genannt). In solchen Verzeichnissen wie beispielsweise
Yahoo! und dem Open Directory Project sind die Dokumente hierarchisch
in einem Inhaltsverzeichnis nach Themen organisiert.
So genannte Echtzeit-Suchmaschinen starten den Indexierungsvorgang erst
nach einer Anfrage. So sind die gefundenen Seiten zwar stets aktuell,
die Qualität der Ergebnisse ist aber aufgrund der fehlenden breiten
Datenbasis insbesondere bei weniger gängigen Suchbegriffen schlecht.
Ranking / Suchrang
Die Darstellung der Suchergebnisse geschieht sortiert nach Relevanz (Ranking
bzw. Suchrang), wofür jede Suchmaschine ihre eigenen, meist geheim
gehaltenen Kriterien heranzieht.
Dazu gehören:
- Häufigkeit und Stellung der Suchbegriffe im jeweiligen gefundenen
Dokument.
- Einstufung und Anzahl der zitierten Dokumente.
- Häufigkeit von Verweisen anderer Dokumente auf das im Suchergebnis
enthaltene Dokument sowie in Verweisen enthaltener Text.
- Einstufung der Qualität der verweisenden Dokumente (ein Link
von einem „guten“ Dokument ist mehr wert als der Verweis
von einem mittelmäßigen Dokument).
Größere Bekanntheit erlangt hat PageRank, eine Komponente
des Ranking-Algorithmus' der erfolgreichen Suchmaschine Google.
Manche Suchmaschinen sortieren Suchergebnisse nicht nur nach Relevanz
für die Suchanfrage, sondern lassen gegen Bezahlung auch Einflussnahme
auf ihre Ausgabe zu. In den letzten Jahren hat sich allerdings bei den
großen Anbietern eine Trennung zwischen Suchergebnissen und als
"bezahlte Treffer" markierte eingeblendeter Werbung durchgesetzt.
Die "bezahlten Treffer" werden kontextbezogen zur Suchanfrage
ausgegeben.
Geschichte
Archie kann als ältester Vorfahre der heute allseits bekannten Suchmaschinen
und Webverzeichnisse angesehen werden.
Der erste Vorläufer der heutigen Suchmaschinen war eine im Jahr 1991
an der University of Minnesota maßgeblich von Paul Lidner und Mark
P. McCahill entwickelte Software namens Gopher. Sie wurde als Campuswide
Information System (CWIS) zur Vernetzung der dortigen Informationsserver
entwickelt und basiert auf dem Client-Server-Prinzip. Die Struktur von
Gopher war für den damaligen Zeitpunkt richtungsweisend; alle Gopher-Seiten
wurden katalogisiert und konnten vom Gopher-Sucher Veronica (Very Easy
Rodent-Oriented Net-wide Index to Computerized Archives) komplett durchsucht
werden. Allerdings verschwand Gopher schon einige Jahre später, vermutlich
vor allem wegen der fehlenden Möglichkeit, Bilder und Grafiken einzubinden.
Mit der Freigabe des WWW-Standards zur kostenlosen Nutzung 1993 und einer
handvoll Webseiten begann die einzigartige Erfolgsgeschichte des weltweiten
Datennetzes. Der erste Webcrawler namens The Wanderer wurde im selben
Jahr von Mathew Gray programmiert, einem Studenten des Massachusetts Institute
of Technology (MIT). The Wanderer durchsuchte und katalogisierte von 1993
bis 1996 halbjährlich das zu dieser Zeit noch sehr übersichtliche
Web. Im Juni 1993 wurden insgesamt 130 Websites gezählt. Im Oktober
des gleichen Jahres wurde Aliweb (Archie-Like Indexing of the Web) entwickelt,
bei dem die Betreiber von Webservern eine Beschreibung ihres Dienstes
in einer Datei ablegen mussten, um so ein Teil des durchsuchbaren Index
zu werden.
Im Dezember 1993 gingen die Suchmaschinen Jumpstation, WorldWideWeb Worm
und RBSE Spider ans Netz. Die beiden erstgenannten waren Crawler, die
Webseiten nach Titel und URL indexierten. RBSE Spider war die erste Suchmaschine,
die ihre Ergebnisse nach einem eigenen Ranking-System sortiert anzeigte.
Keine dieser Suchmaschinen bietet heute noch ihre Dienste an.
Im April 1994 ging eine weitere Suchmaschine namens WebCrawler online,
die ebenfalls eine nach Ranking sortierte Trefferliste vorweisen konnte.
1995 wurde sie an AOL verkauft, ein Jahr später weiter an Excite.
Im Mai begann die Arbeit von Michael Mauldins an der Suchmaschine Lycos,
die im Juli 1994 online ging. Neben der Worthäufigkeit der Suchbegriffe
innerhalb der Webseiten durchsuchte Lycos auch die Nähe der Suchbegriffe
untereinander im Dokument.
Im selben Jahr riefen David Filo und Jerry Yang, beide damals Studenten
des Fachbereichs Elektrotechnik an der Stanford University, eine Sammlung
ihrer besten Web-Adressen in einem online verfügbaren Verzeichnisdienst
ins Leben – die Geburtsstunde von Yahoo! (für Yet Another Hierarchical
Officious Oracle).
Das Jahr 1995 sollte eine bedeutende Trendwende für die erst kurze
Geschichte der Suchmaschinen werden: In diesem Jahr wurden erstmals Suchmaschinen
von kommerziellen Firmen entwickelt. Aus diesen Entwicklungen entstanden
Infoseek, Architext (wurde später in Excite umbenannt) und AltaVista.
Ein Jahr später wurde Inktomi Corp. gegründet, deren gleichnamige
Suchmaschine zur Grundlage von Hotbot und anderen Suchseiten wurde. Führend
in dieser Zeit war der Verzeichnisdienst von Yahoo, aber AltaVista (der
Name bedeutet „Blick von oben“, ist aber auch ein Wortspiel
den Standort Palo Alto betreffend) wurde zunehmend populär.
1996 war das Startjahr von zwei Metasuchmaschinen. MetaCrawler erblickte
in den USA das Licht der Welt und - in Deutschland - MetaGer. Bis zur
Marktdurchdringung von Google galten Metasuchmaschinen als eine der interessantesten
Informationsbeschaffer, da der Suchindex der Suchmaschinen meist nur Teilbereiche
des Internets enthielt. Metasuchmaschinen leiten die Abfragen des Nutzers
parallel an mehrere Suchmaschinen weiter und fassen die Treffer formatiert
zusammen.
Ende 1998 veröffentlichten Larry Page und Sergey Brin ihre innovative
Suchmaschinen-Technologie in dem Artikel The Anatomy of a Large-Scale
Hypertextual Web Search Engine. Diese Arbeit stellte den Startschuss für
die bisher erfolgreichste Suchmaschine der Welt dar: Google. Im September
1999 erreichte Google Beta-Status. Die geordnete Benutzeroberfläche,
die Geschwindigkeit und die Relevanz der Suchergebnisse bildeten die Eckpfeiler
auf dem Weg, die computererfahrenen Nutzer für sich zu gewinnen.
Ihnen folgten in den nächsten Jahren bis heute Scharen von neuen
Internetbenutzern. Doch Google dominiert den Suchmaschinenmarkt nicht
allein, durch spektakuläre Aufkäufe im Frühjahr 2003 sicherte
sich Yahoo! den Anschluss in diesem Marktsegment.
Seit 2004 gibt es nach einigen Firmenübernahmen nur mehr drei große
(bezogen auf die Anzahl erfasster Dokumente) indexbasierte kommerzielle
Websuchmaschinen. Neben Google sind dies Yahoo! Search und Microsofts
MSN Search.
Herausforderungen
Mehrdeutigkeit – Suchanfragen sind oft unpräzise. So kann die
Suchmaschine nicht selbständig entscheiden, ob beim Begriff Laster
nach einem LKW oder einer schlechten Angewohnheit gesucht werden soll.
Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff
bestehen. Sie sollte auch Synonyme einbeziehen, damit der Suchbegriff
Rechner Linux auch Seiten findet, die statt Rechner das Wort Computer
enthalten. Weiterhin wird oft Stemming verwendet, dabei werden Wörter
auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen
Wortformen möglich (schöne Blumen findet so auch schöner
Blume), außerdem wird die Anzahl der Begriffe im Index reduziert.
- Datenmenge – Das Web wächst schneller
als die Suchmaschinen mit der derzeitigen Technik indexieren können.
Dabei ist der den Suchmaschinen unbekannte Teil – das sogenannte
Deep Web – noch gar nicht eingerechnet.
- Aktualität – Viele Webseiten werden häufig
aktualisiert, was die Suchmaschinen zwingt, diese Seiten immer wieder
zu besuchen. Dies ist auch notwendig, um zwischenzeitlich aus der Datenbasis
entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten.
Das regelmäßige Herunterladen der mehreren Milliarden Dokumente,
die eine Suchmaschine im Index hat, stellt große Anforderungen
an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers.
- Spam – Mittels Suchmaschinen-Spamming versuchen
manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen
zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen
zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden
schadet dies, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt
werden.
- Technisches – Suche auf sehr großen Datenmengen
so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen
und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro
Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich
ist), stellt große Anforderungen an den Suchmaschinenbetreiber.
Systeme müssen sehr redundant ausgelegt sein, zum einen auf den
Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr
als ein Rechenzentrum geben, welches die komplette Suchmaschinenfunktionalität
anbietet.
- Rechtliches – Suchmaschinen werden meist international
betrieben und bieten somit Benutzern Ergebnisse von Servern, die in
anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen
Länder unterschiedliche Auffassungen davon haben, welche Inhalte
erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse
Seiten von ihren Ergebnissen auszuschließen. Die deutschen Internet-Suchmaschinen
wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle
aus ihren Trefferlisten streichen.
|
|