Hvordan fungerer robots.txt

15-05-2009 | Kommentarer til artiklen 0 kommentarer


Robots.txt er en lille tekst-fil der fortæller søgemaskinerne hvilke sider og mapper de må crawle.
Filen kan med fordel bruges på hjemmesider med indkøbskurve, bruger-konto-sider eller user-login-sider(ikke administrator logins, men bruger-login).
I disse tilfælde kan filen forhindre, at en indkøbskurv og/eller user-account-side crawles og vises med indhold i Googles SERP.
Der er jo ikke den store idé i, at gøre disse sider dominerende i søgemaskinerne.

Når robots.txt placeres i rod-mappen på ens website, vil de fleste store søgemaskiner starte med at læse dén.
Når de har fået instrukser på hvad de har lov til, går de videre med at crawle og indeksere din side.

En simpel Robots.txt kan se sådan ud:

User-agent: *
Disallow:


”User-agent” fortæller hvilke søgemaskiner reglen gælder for. Stjernen(eller asterisk) derefter betegner ALLE søgemaskiner.
”Disallow” er der hvor man fortæller hvad søgemaskinen ikke har lov til at se. I eksemplet ovenfor er den tom, hvilket betyder at alt kan crawles og indekseres.

Endnu et eksempel:

User-agent: *
Disallow: /basket/


I eksemplet her, vil ALLE søgemaskiner blive fortalt, at de ikke må gennemgå filer i mappen ”basket”(indkøbskurven).

I det næste eksempel er det kun Googlebot der bliver frabedt at crawle mappen ”basket”

User-agent:  googlebot
Disallow: /basket/


Skal der opstilles forskellige regler for forskellige søgemaskiner listes reglerne blot sådan:

User-agent: googlebot
Allow: /

User-agent: MSNBot
Disallow: /


Eksemplet betyder at googlebot har tilladelse til alt, mens MSNBot ikke må gennemgå en eneste side.

Robots.txt kan i visse tilfælde være case-sensitive. Altså skelne mellem store og små bogstaver.
Derfor betyder ”disallow: /BASKET/” og ”disallow: /basket/” ikke nødvendigvis det samme.

På Google står der lidt om hvordan du kan teste din robots.txt for eventuelle fejl.

At forhindre søgemaskinerne i at se et evt. login til et Content Management System er i mine øjne ikke en god idé at gøre gennem robots.txt.
For en eventuel hacker, er der ingen nemmere metode at lokalisere dit login-system, end ved at kigge i robots.txt.
I øvrigt må man også gå ud fra at et CMS-login er så tilstrækkelig gemt af vejen, at søgemaskinerne alligevel aldrig vil indeksere det.

 

 

Kommentarer


Skriv en kommentar... Jeg ved du har lyst...

Navn: *



Evt hjemmeside:



Email adresse: *



Kommentar: *


Gem indlæg

L4U Media v. Jonas Nielsen  |  Søgemaskineoptimering og Webdesign  |  8000 Aarhus C  |  Tlf: 22 12 32 20  |  SEO blog  |  sitemap  |  kontakt