Die eigene Suchmaschine mit „YaCy“ betreiben

Suchprozeduren- und Technologien von Google, Microsoft oder Yahoo sind nicht umsonst streng behütete Geheimnisse – sind sie doch das Kapital der börsennotierten US-Konzerne. „Warum“ eine spezielle Seite „Wo“ im Such-Index auftaucht, bleibt für den Anwender mehr oder weniger verborgen. Das Open Source-Projekt „YaCy“ stemmt sich mit seiner verteilten P2P-Suchlösung gegen derart zentrale Monokulturen.

Marktmacht

Allein Google’s Dominanz in Deutschland imponiert: Mehr als 80 Prozent aller Suchanfragen landen auf den Seiten der an der Börse über 100 Milliarden Euro gewichtigen Firma. Ist eine Seite nicht im Index gelistet, kann sie demzufolge auch nicht gefunden werden und verweilt schlimmstenfalls in der Bedeutungslosigkeit. Auch das von den Firmengründern Larry Page und Sergey Brin propagierte Motto „Don’t be Evil“ hat mit der Zensur des chinesischen Ablegers seine weisse Weste verloren. Nichtsdestotrotz bietet Google den mit Abstand umfassendsten Index, eine relativ hohe Treffergenauigkeit und eine Vielzahl einfach (und meist gratis) anwendbarer Web-Features.

Verteiltes Indexieren

Yet another Cyberspace – oder eben kurz „YaCy“ – überlässt es dem einzelnen Nutzer (Peer), welche Seiten durchsucht (oder „gecrawlt“) werden sollen. Aus dieser Menge privater Indexe entsteht ein gewaltiges Datensammelsurium, das per „Globaler Suche“ allen Anwendern zur Verfügung steht. Ein Peer-to-Peer Netzwerk (P2P) also, das seine Existenzberechtigung durch das dezentrale „zur Verfügung stellen“ der gecrawlten Informationen verdient – eine Zensur kann damit faktisch ausgeschlossen werden. Mit über 120 Millionen indexierten Seiten (Quelle: Linux Tag 2006) liegt das Projekt denn auch weit vor alternativen Suchmaschinen wie ASPseek oder Nutch.

Wer mit „YaCy“ seine eigene Suchmaschine auf dem heimischen Desktop-PC betreiben möchte, benötigt dafür lediglich eine „Java Virtual Machine“ (JRE – Java Runtime Environment) und bekommt die unter GNU veröffentlichte Softwarelösung auf gängigen Betriebssystem wie Windows oder Linux zum Laufen.

Damit der integrierte Suchroboter (Crawler) seine Arbeit möglichst reibungslos durchführen kann, braucht es einen zumindest halbwegs aktuell ausgestatteten Rechner mit möglichst viel Arbeitsspeicher. 512 MByte sollten es schon sein, besser ist die doppelte Menge. Eine Flatrate ist für Benutzer der Open Source-Suchmaschine Pflicht, Volumentarife sind bei intensiver Nutzung des Crawlers schnell ausgereizt und sorgen dann für unschöne Rechnungs-Überraschungen.

YaCy auf dem Desktop einrichten

Nach Download und Installation der aktuellen Version 0.50 kann man die Konsole per Mausklick auf „startYACY.bat“ starten. Anschließend fragt „YaCy“ im Browserfenster einige Grundinformationen ab, beispielsweise Interface-Sprache, Benutzername und Passwort sowie einen individuellen „Peer-Namen“. Um auch von anderen Teilnehmer erreicht zu werden und diesen den eigenen Index zur Verfügung zu stellen, muss zudem Port 8080 in der – gegebenenfalls vorhandenen – Firewall/Router freigeschaltet werden. „YaCy“ kennt aufgrund der Port-Problematik verschiedenartige Nutzer-Modi: Im „Junior-Modus“ kann der Anwender ausschließlich die lokale Datenbank durchsuchen, im „Senior-Modus“ ist man mit dem „YaCy“-Netzwerk verbunden (offener Port 8080)

Privater Rechercheur: P2P-Suchmaschine

Suchanfragen können nun über den Eintrag „Crawler Steuerung“ – „ Index erzeugen“ gestartet und mit individuellen Parametern bestückt werden. Vorsicht ist beim Eintrag „Crawling-Tiefe“ vonnöten. Beträgt dieser „0“, wird nur die unter der angegebenen URL erreichbare Einzelseite analysiert, bei einem Wert von „1“ werden alle verlinkten Seiten von dieser Startsite gecrawlt, bei „2“ die Verweise wiederum von diesen Sites – schon bei einer Crawling-Tiefe von 8 kämen bis zu 25 Milliarden Seiten zusammen. In der Regel sollten hier Werte zwischen 1 und 4 für eine passable Indexierung ausreichen.

Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine

Neben dem manuellen Hinzufügen von Websites kann „YaCy“ auch als Proxy fungieren: Dabei werden alle im Browser besuchten Sites gecrawlt, passwortgeschützte Seiten wie zum Beispiel Mail-Accounts sind davon sinnvollerweise ausgeschlossen. Details über die dabei zu tätigenden Browser-Einstellungen finden sich auf der YaCy-Projekthomepage.

Wer „YaCy“ ausschließlich als lokale Suchmaschine betreiben möchte, muss unter „Crawler“ – „Index verwalten“ die Einträge „Index Verteilung“ sowie „Index Empfang“ deaktivieren, erst dann läuft der Peer im „Robinson Modus“.

Firefox-Toolbar

Praktisch ist auch die von den Entwicklern bereitgestellt „YaCy-Bar“ für Mozilla Firefox (ab Version 1.5). Die Toolbar erleichtert das einfache Hinzufügen interessanter Websites bei normalen „Surf-Sessions“. Neben dem Indexieren kann man einzelne Seiten aber auch auf eine so genannte „Blacklist“ setzen und damit aus der Datenbank verbannen.

Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine

Schon die kleinwüchsige Versionsnummer von „YaCy“ verrät, das sich die Software noch im „Projekt-Status“ befindet. Zwar bietet die Suchmaske einige Features wie „Verfeinere die Suche mit diesen Topwörtern“ und eine simple Rating-Funktion („Empfehlen“), richtig Überzeugen können zur Zeit aber nur wenige Suchanfragen.
Ferner kann der Anwender unter „Detailsuche“ die Suche mit speziellen Parametern, beispielsweise „Domain Length“, „Date“ oder „Words in Title“, füttern, die schiere Anzahl der Einstellungen dürfte jedoch die meisten Nutzer überfordern. Auch Umlaute werden leider bisher nicht unterstützt.

Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine

Fazit: „Yet another Cyberspace“ taugt schon heute als praktische Plattform für eine individuell zugeschnittene, lokale Suchmaschine, möglicherweise auch als Ersatz für das statische Lesezeichen-Management per Browser. Für eine höhere Nutzerakzeptanz braucht es allerdings ein einfacheres Nutzer-Interface und bessere Suchergebnisse. Dennoch besitzt „YaCy“ Potenzial: Erste Gespräche über eine Zusammenarbeit des Projekts mit der von Wikipedia-Gründer Jimmy Wales geplanten Suchmaschine „Wikiasari“ sollen bereits stattgefunden haben.

Links:

YaCy-Projektseite
YaCy-Wiki
Suma e.V.

Waren diese Informationen hilfreich?

  • Currently 3.20/5
  • 1
  • 2
  • 3
  • 4
  • 5

Rating: 3.2/5(5 votes cast)

Artikel als Lesezeichen speichern:

Mister Wong del.icio.us Yahoo MyWeb Google Technorati Furl YiGG Taggle Folkd BlinkList Linkarena

Folgende Artikel könnten ebenfalls ihr Interesse wecken:


CMS Light

CMSimple
In Zeiten rapid fallender Preise für die Unterstützung von PHP in diversen Webhosting-Angeboten lohnt ein Blick über den Tellerrand, was man mit derlei neuen Funktionen anfangen kann. Eine Möglichkeit wäre beispielsweise, vorhandene statische HTML-Seiten auf ein modernes Content-Management-System (kurz CMS) umzustellen. Bevor man allerdings einen solchen Schritt ernsthaft in Erwägung zieht, sollte man sich über die Vor- und Nachteile seines Schaffens im Klaren sein.

...mehr darüber! veröffentlicht am 4. Februar 2006 in den Themengebieten Kommentare

„Clickster“ – MP3s zum Nulltarif

Clickster - kostenfreie MP3s aus dem InternetREMLAPsoftware’s Freeware „Clickster“ bietet laut eigenem Bekunden Zugriff auf über 25 Millionen kostenfreie MP3s aus den Weiten des Internets – ohne dabei auf diverse Tauschbörsen zurückzugreifen. Das mag auf den ersten Blick verlockend klingen, doch wie verhält es sich mit Qualität, Sicherheit und Copyright des bereitgestellten Musikmaterials?

...mehr darüber! veröffentlicht am 8. Mai 2007 in den Themengebieten Kommentare

Musik im Netz

Musik im NetzMit dem Aufkommen der kommerziellen Nachfolger von Napster & Co sowie dem rigorosen Verfolgen urheberrechtlicher Vergehen in Tauschbörsen scheinen die Zeiten, in denen man kostenlose Musik im Netz wie Strandmuscheln am Meer sammeln konnte, endgültig vorbei. Doch bei tiefgründiger Betrachtung finden sich noch immer Weltnetzseiten, die legal teilweise tausende von Musikstücken zum Herunterladen anbieten. Der nachfolgende Artikel zeigt, wo man die „musikalischen Sahnehäubchen“ suchen sollte.

...mehr darüber! veröffentlicht am 17. April 2006 in den Themengebieten Kommentare

Leserkommentare

  1. Schöne Zusammenfassung! Allerdings läuft YaCY definitiv auch mit weniger Speicher. Ich hab nur “300” MB dafür vorgesehen. Naja ab und zu ist das System ein bisschen lahm. Aber bei 3Mio indexierten URLs ist das schon okay. Ach und zum Wikiasari Artikel noch kurz den link zum YaCy Blog: http://blog.yacy-websuche.de/

    am 18 Januar 2007, 21:56.

Artikel kommentieren