Die eigene Suchmaschine mit „YaCy“ betreiben

Suchprozeduren- und Technologien von Google, Microsoft oder Yahoo sind nicht umsonst streng behütete Geheimnisse – sind sie doch das Kapital der börsennotierten US-Konzerne. „Warum“ eine spezielle Seite „Wo“ im Such-Index auftaucht, bleibt für den Anwender mehr oder weniger verborgen. Das Open Source-Projekt „YaCy“ stemmt sich mit seiner verteilten P2P-Suchlösung gegen derart zentrale Monokulturen.

Marktmacht

Allein Google’s Dominanz in Deutschland imponiert: Mehr als 80 Prozent aller Suchanfragen landen auf den Seiten der an der Börse über 100 Milliarden Euro gewichtigen Firma. Ist eine Seite nicht im Index gelistet, kann sie demzufolge auch nicht gefunden werden und verweilt schlimmstenfalls in der Bedeutungslosigkeit. Auch das von den Firmengründern Larry Page und Sergey Brin propagierte Motto „Don’t be Evil“ hat mit der Zensur des chinesischen Ablegers seine weisse Weste verloren. Nichtsdestotrotz bietet Google den mit Abstand umfassendsten Index, eine relativ hohe Treffergenauigkeit und eine Vielzahl einfach (und meist gratis) anwendbarer Web-Features.

Verteiltes Indexieren

Yet another Cyberspace – oder eben kurz „YaCy“ – überlässt es dem einzelnen Nutzer (Peer), welche Seiten durchsucht (oder „gecrawlt“) werden sollen. Aus dieser Menge privater Indexe entsteht ein gewaltiges Datensammelsurium, das per „Globaler Suche“ allen Anwendern zur Verfügung steht. Ein Peer-to-Peer Netzwerk (P2P) also, das seine Existenzberechtigung durch das dezentrale „zur Verfügung stellen“ der gecrawlten Informationen verdient – eine Zensur kann damit faktisch ausgeschlossen werden. Mit über 120 Millionen indexierten Seiten (Quelle: Linux Tag 2006) liegt das Projekt denn auch weit vor alternativen Suchmaschinen wie ASPseek oder Nutch.

Wer mit „YaCy“ seine eigene Suchmaschine auf dem heimischen Desktop-PC betreiben möchte, benötigt dafür lediglich eine „Java Virtual Machine“ (JRE – Java Runtime Environment) und bekommt die unter GNU veröffentlichte Softwarelösung auf gängigen Betriebssystem wie Windows oder Linux zum Laufen.

Damit der integrierte Suchroboter (Crawler) seine Arbeit möglichst reibungslos durchführen kann, braucht es einen zumindest halbwegs aktuell ausgestatteten Rechner mit möglichst viel Arbeitsspeicher. 512 MByte sollten es schon sein, besser ist die doppelte Menge. Eine Flatrate ist für Benutzer der Open Source-Suchmaschine Pflicht, Volumentarife sind bei intensiver Nutzung des Crawlers schnell ausgereizt und sorgen dann für unschöne Rechnungs-Überraschungen.

YaCy auf dem Desktop einrichten

Nach Download und Installation der aktuellen Version 0.50 kann man die Konsole per Mausklick auf „startYACY.bat“ starten. Anschließend fragt „YaCy“ im Browserfenster einige Grundinformationen ab, beispielsweise Interface-Sprache, Benutzername und Passwort sowie einen individuellen „Peer-Namen“. Um auch von anderen Teilnehmer erreicht zu werden und diesen den eigenen Index zur Verfügung zu stellen, muss zudem Port 8080 in der – gegebenenfalls vorhandenen – Firewall/Router freigeschaltet werden. „YaCy“ kennt aufgrund der Port-Problematik verschiedenartige Nutzer-Modi: Im „Junior-Modus“ kann der Anwender ausschließlich die lokale Datenbank durchsuchen, im „Senior-Modus“ ist man mit dem „YaCy“-Netzwerk verbunden (offener Port 8080)

Privater Rechercheur: P2P-Suchmaschine

Suchanfragen können nun über den Eintrag „Crawler Steuerung“ – „ Index erzeugen“ gestartet und mit individuellen Parametern bestückt werden. Vorsicht ist beim Eintrag „Crawling-Tiefe“ vonnöten. Beträgt dieser „0“, wird nur die unter der angegebenen URL erreichbare Einzelseite analysiert, bei einem Wert von „1“ werden alle verlinkten Seiten von dieser Startsite gecrawlt, bei „2“ die Verweise wiederum von diesen Sites – schon bei einer Crawling-Tiefe von 8 kämen bis zu 25 Milliarden Seiten zusammen. In der Regel sollten hier Werte zwischen 1 und 4 für eine passable Indexierung ausreichen.

Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine

Neben dem manuellen Hinzufügen von Websites kann „YaCy“ auch als Proxy fungieren: Dabei werden alle im Browser besuchten Sites gecrawlt, passwortgeschützte Seiten wie zum Beispiel Mail-Accounts sind davon sinnvollerweise ausgeschlossen. Details über die dabei zu tätigenden Browser-Einstellungen finden sich auf der YaCy-Projekthomepage.

Wer „YaCy“ ausschließlich als lokale Suchmaschine betreiben möchte, muss unter „Crawler“ – „Index verwalten“ die Einträge „Index Verteilung“ sowie „Index Empfang“ deaktivieren, erst dann läuft der Peer im „Robinson Modus“.

Firefox-Toolbar

Praktisch ist auch die von den Entwicklern bereitgestellt „YaCy-Bar“ für Mozilla Firefox (ab Version 1.5). Die Toolbar erleichtert das einfache Hinzufügen interessanter Websites bei normalen „Surf-Sessions“. Neben dem Indexieren kann man einzelne Seiten aber auch auf eine so genannte „Blacklist“ setzen und damit aus der Datenbank verbannen.

Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine

Schon die kleinwüchsige Versionsnummer von „YaCy“ verrät, das sich die Software noch im „Projekt-Status“ befindet. Zwar bietet die Suchmaske einige Features wie „Verfeinere die Suche mit diesen Topwörtern“ und eine simple Rating-Funktion („Empfehlen“), richtig Überzeugen können zur Zeit aber nur wenige Suchanfragen.
Ferner kann der Anwender unter „Detailsuche“ die Suche mit speziellen Parametern, beispielsweise „Domain Length“, „Date“ oder „Words in Title“, füttern, die schiere Anzahl der Einstellungen dürfte jedoch die meisten Nutzer überfordern. Auch Umlaute werden leider bisher nicht unterstützt.

Privater Rechercheur: P2P-Suchmaschine Privater Rechercheur: P2P-Suchmaschine

Fazit: „Yet another Cyberspace“ taugt schon heute als praktische Plattform für eine individuell zugeschnittene, lokale Suchmaschine, möglicherweise auch als Ersatz für das statische Lesezeichen-Management per Browser. Für eine höhere Nutzerakzeptanz braucht es allerdings ein einfacheres Nutzer-Interface und bessere Suchergebnisse. Dennoch besitzt „YaCy“ Potenzial: Erste Gespräche über eine Zusammenarbeit des Projekts mit der von Wikipedia-Gründer Jimmy Wales geplanten Suchmaschine „Wikiasari“ sollen bereits stattgefunden haben.

Links:

YaCy-Projektseite
YaCy-Wiki
Suma e.V.

Waren diese Informationen hilfreich?

  • Currently 3.20/5
  • 1
  • 2
  • 3
  • 4
  • 5

Rating: 3.2/5(5 votes cast)

Artikel als Lesezeichen speichern:

Mister Wong del.icio.us Yahoo MyWeb Google Technorati Furl YiGG Taggle Folkd BlinkList Linkarena

Folgende Artikel könnten ebenfalls ihr Interesse wecken:


Spieletipp: „Plasma Pong“ – Actiongeladener Pong-Klon

Grafisch ansprechender und actiongeladener Pong-Klon: Plasma PongBereits 1972 veröffentlichte Atari Inc. mit „Pong“ eines der ersten Videospiele überhaupt, die sich schnell einer globalen Fangemeinde auf Konsolen, Spielautomaten und PCs erfreuen konnten. Steve Taylor’s „Plasma Pong“ adaptiert das bekannte Spieleprinzip in einen an Winamp-Visualisierungen erinnernden Plasma-Brei.

...mehr darüber! veröffentlicht am 1. Mai 2007 in den Themengebieten Kommentare [1]

Audiophiler API-Einsatz

APIs im kreativen EinsatzAPI’s (application programming interfaces) bieten vielfältige Möglichkeiten, per Internet auf externe Datenarsenale zurückzugreifen und diese in eigene Anwendungen zu implementieren. Firmen wie Amazon, Flickr, Google oder Ebay stellen – zumindest teilweise kostenfrei – verschiedene API-Schnittstellen zur Verfügung. Das daraus durchaus sinnvolle und interessante Projekte entstehen können, beweisen Dimvision’s „MusicMap“ und Christoph Olszowka’s „Musicportl“.

...mehr darüber! veröffentlicht am 13. Dezember 2006 in den Themengebieten Kommentare

Rückblick CeBIT 2006:

foobar2000 Unter der Parole „Join the Vision“ startete am 08. März die CeBIT 2006 in Hannover –
diesen Mittwoch endete Sie. Dabei kann man sogar auf ein kleines Jubiläum zurückblicken, denn seit 20 Jahren zeigt die größte Computermesse der Welt zukunftsweisende Trends und Technologien der Informations- und Telekommunikationsbranche auf. Zwar kamen zur diesjährigen Messe mit 450.000 Besuchern knapp 45.000 Menschen weniger als im letzten Jahr, trotzdem blieb die Ausstellerzahl stabil bei 6262, über die Hälfte davon aus dem Ausland. Der visuelle Rückblick von zarathustra.6x.to bietet einen kleinen Ausschnitt an aktuellen Trends und kuriosen Ausstellungsstücken:

...mehr darüber! veröffentlicht am 18. März 2006 in den Themengebieten Kommentare

Leserkommentare

  1. Schöne Zusammenfassung! Allerdings läuft YaCY definitiv auch mit weniger Speicher. Ich hab nur “300” MB dafür vorgesehen. Naja ab und zu ist das System ein bisschen lahm. Aber bei 3Mio indexierten URLs ist das schon okay. Ach und zum Wikiasari Artikel noch kurz den link zum YaCy Blog: http://blog.yacy-websuche.de/

    am 18 Januar 2007, 22:56.

Artikel kommentieren