Robots

Die PmWiki-Versionen ab 0.6.0 beherrschen den Umgang mit den meisten Robots bereits standardmäßig. Die folgenden Informationen gelten insofern für frühere Versionen von PmWiki.

Eines schönen Tages wird Google Bot Dein neues PmWiki besuchen und das gesamte Set-Up von A bis Z wörtlich indizieren.

“Wunderbar”, höre ich Dich sagen, “lass Google Bot das ganze Zeug indizieren und meine Seite zur Nummer eins im Universum machen.” Hmm, sicher?

Was Du tatsächlich willst, ist, dass Google Bot Deine ‘regulären’ Seiten, wie www.meinedomain.org/pmwiki/meinestartseite und natürlich www.meinedomain.com/pmwiki/meinezweiteseite indiziert. Sobald jemand ein Wort, das in diesen Seiten vorkommt, in Google eingibt, erscheint Deine PmWiki-Seite als Ergebnis der Google-Suche.

Was Du dagegen nicht willst, ist ein komplettes Archiv jeder einzelnen Seite www.meinedomain.com/pmwiki/meinestartseite?action=edit, oder dass sonstige PmWiki-Kommandos direkt via Google zugänglich sind. Falls das so wäre, würde das entsprechende Kommando in dem Moment, in dem der Besucher auf den Google-Link klickt, ausgeführt werden, und der Besucher würde auf einer zum Bearbeiten geöffneten Seite oder einem Change-Log landen.

Es gibt zwei Wege, dieses Szenario zu verhindern. Die erste Möglichkeit ist recht einfach und besteht darin, im Wurzelverzeichnis Deiner Website eine Datei robots.txt anzulegen (z.B. www.meinedomain.com/robots.txt). Die zweite Möglichkeit besteht darin, Meta-Tags zu nutzen, die Du im Skript local.php programmieren kannst.

Der Ansatz über robots.txt

Mitte der 1990er-Jahre kam es ab und an vor, dass Robots Server im WWW abgesucht haben, auf denen sie aus bestimmten Gründen unerwünscht waren. Manchmal waren nur bestimmte Robots unerwünscht, beispielsweise solche, die Server mit ständigen Requests überhäuften oder die versuchten, einige Dateien vielfach herunterzuladen. In anderen Fällen durchsuchten die Robots ungeeignete Teile von WWW-Servern, beispielsweise sehr tief verschachtelte virtuelle Bäume, duplizierte oder temporäre Informationen oder cgi-Skripte mit Nebeneffekten (wie etwa Stimmabgaben bei Abstimmungen).

Die genutzte Methode, um Robots von Servern auszuschließen, ist, in der Zugangsberechtigungen für Robots festgelegt werden (http://www.robotstxt.org/wc/norobots.html eine Datei auf dem Server zu erzeugen). Diese Datei muss via HTTP mit der lokalen URL “/robots.txt” zugänglich sein.

Um Google Bot daran zu hindern, unerwünschte Seiten zu indizieren, kannst Du die folgenden Statements in die Datei robots.txt eintragen:

    User-agent: Googlebot
    Disallow: */main/allrecentchanges$
    Disallow: */pmwiki*
    Disallow: */search*
    Disallow: *recentchanges*
    Disallow: *action=*

Wie oben bereits angesprochen, fügen neuere Versionen von PmWiki (ab 0.6.0) standardmäßig spezielle Meta-Informationen in die durch die Aktionen ‘Bearbeiten’ oder ‘Versionsvergleich’ erzeugten Seiten ein. Mit diesen speziellen Meta-Informationen wird den Suchmaschinen mitgeteilt, weder die entsprechende Seite zu indizieren noch irgendwelchen Links in dieser Seite zu folgen. Damit entfällt die Notwendigkeit für einige der Zeilen in der obigen Datei robots.txt.

« SeitenLayout | PmWiki.Documentation Index | typische Probleme »




This page may have a more recent version on pmwiki.org: PmWiki:Robots, and a talk page: PmWiki:Robots-Talk.