Probleme mit robots.txt
Leider habe ich in den letzten Tagen wenig Zeit gehabt hier in meinem privaten Blog zu schreiben. Schuld daran, war die Änderung der “robots.txt” auf diversen Blogs. Losgegangen ist die ganze Geschichte mit der Indexierung von Suchabfragen in einer meiner Blogs. Daraufhin habe ich mal die ganzen “robots.txts” überprüft und festgestellt, dass diese allesamt sehr ähnlich sind und die Suchabfragen nicht expliziet ausgeschlossen sind.
Dies bedeutet natürlich Gefahr und kann sich auf anderen meiner Blogs genauso wiederholen. Daraufhin ging ich mal auf Googlesuche um eine Optimale zu finden. Gelandet bin ich dann unter anderem auch auf geldkrieg.de, wo David ein Modell einer getunten robots.txt vorstellte. Diese probierte ich dann mal mit kleinen Veränderungen aus. Leider hatte ich sie nicht vorher auf einem wenig besuchten Blog getestet, sondern gleich auf meinem best besuchten Blog.
Ergebnis war leider, dass ich neue Beiträge nicht mehr sofort in den Index bekommen konnte (Kann ja nur an dem liegen, denn vorher hatte ich damit keine Probleme- sprich neue Artikel sofort im Index). Da ich einen Gutschein- bzw. Schnäppchen-Blog betreibe und die Aktionen oft nur einen oder zwei Tage dauern ist es unumgänglich, dass die Beiträge sofort im Google Index landen und nicht erst 7 Tage später, wo die angepriesene Aktion bereits wieder Geschichte ist.
So probiere ich jetzt seit Tagen rum eine wirklich optimale robots.txt für den WordPress Blog zu finden, wo die Double Content Gefahr gebannt ist, aber auch nicht zu viel ausgesperrt ist.
Hier ist die derzeitige:
User-agent: *
Disallow: /wp-
Disallow: /search
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: */feed/$
Disallow: */feed/rss/$
Disallow: */trackback/$
Disallow: */*/feed/$
Disallow: */*/feed/rss/$
Disallow: */*/trackback/$
Disallow: */*/*/feed/$
Disallow: */*/*/feed/rss/$
Disallow: */*/*/trackback/$
Disallow: /?s=
Disallow: /archives
Disallow: /author
Disallow: /tag
Disallow: /category
Disallow: /2008
Disallow: /images/
Disallow: /impressum/
Vielleicht kann ja einer meiner “noch” wenigen Besucher seine Meinung zu dieser robots.txt sagen. Würde mir weiterhelfen. Vielleicht bin ich auch zu ungeduldig und muß mich noch einige Zeit gedulden, bis die Neue greift und meine neuen Beiträge wieder schnell im Index landen. Die Webseite um die es sich handelt ist nicht in der Sandbox und hat einen “Trust-Level”.


Geldkrieg 23:52 on 25. September 2008 Permalink |
Oh man, das tut mir leid, dass die robots.txt bei dir diese Auswirkung hatte….kann nur sagen, dass meine Artikel sofort im Index landen…keine Ahnung wo das Problem ist…hoffe du bekommst das wieder hin
admin 00:04 on 26. September 2008 Permalink |
Das kommt schon wieder David, wenn es auch ein bißchen dauert. Ist ja nicht das erste mal, dass man mit einem Problem zu kämpfen hat.
PS: Finde Deinen Blog sehr informativ und bin natülich Stammleser deines Feeds.
trendscout 18:17 on 1. November 2008 Permalink |
Wo ist die Verbindung der robots.txt mit der Indexierung zu sehen??
admin 09:23 on 2. November 2008 Permalink |
@trendscout: Die Verbindung? Na mit der robots.txt schließe ich bestimmte Verzeichnisse von der Indexierung aus!