Hvordan fungerer robots.txt

15-05-2009 | Kommentarer til artiklen 0 kommentarer


Robots.txt er en lille tekst-fil der fortæller søgemaskinerne hvilke sider og mapper de må indeksere, og hvilke de ikke må indeksere.
Filen kan med fordel bruges på hjemmesider med indkøbskurve, bruger-konto-sider eller user-login-sider(ikke administrator logins, men bruger-login).
I disse tilfælde kan filen forhindre, at en indkøbskurv og/eller user-account-side vises i Googles SERP.
Disse sider er der jo ikke den store grund til at indeksere i søgemaskinerne.

Når robots.txt placeres i rod-mappen på ens website, vil de fleste store søgemaskiner starte med at læse dén.
Når de har fået instrukser på hvad de har lov til, går de videre med at indeksere din side.

En simpel Robots.txt kan se sådan ud:

User-agent: *
Disallow:


”User-agent” fortæller hvilke søgemaskiner reglen gælder for. Stjernen(eller asterisk) derefter betegner ALLE søgemaskiner.
”Disallow” er der hvor man fortæller hvad søgemaskinen ikke har lov til at se. I eksemplet ovenfor er den tom, hvilket betyder at alt kan indekseres.

Endnu et eksempel:

User-agent: *
Disallow: /basket/


I eksemplet her, vil ALLE søgemaskiner blive fortalt, at de ikke må indeksere filer i mappen ”basket”(indkøbskurven).

I det næste eksempel er det kun Googlebot der bliver frabedt at indeksere mappen ”basket”

User-agent:  googlebot
Disallow: /basket/


Skal der opstilles forskellige regler for forskellige søgemaskiner listes reglerne blot sådan:

User-agent: googlebot
Allow: /

User-agent: MSNBot
Disallow: /


Eksemplet betyder at googlebot har tilladelse til alt, mens MSNBot ikke må indeksere en eneste side.

Robots.txt kan i visse tilfælde være case-sensitive. Altså skelne mellem store og små bogstaver.
Derfor betyder ”disallow: /BASKET/” og ”disallow: /basket/” ikke nødvendigvis det samme.

På Google står der lidt om hvordan du kan teste din robots.txt for eventuelle fejl.

At forhindre søgemaskinerne i at se et evt. login til et Content Management System er i mine øjne ikke en god idé at gøre gennem robots.txt.
For en eventuel hacker, er der ingen nemmere metode at lokalisere dit login-system, end ved at kigge i robots.txt.
I øvrigt må man også gå ud fra at et CMS-login er så tilstrækkelig gemt af vejen, at søgemaskinerne alligevel aldrig vil indeksere det.

 

 

Kommentarer

Skriv en kommentar

Navn
Evt. URL
Email
Kommentar
  Gem indlæg

Seneste indlæg

Spot indlæg

L4U - blog om SEO

  • Halløj, jeg hedder Kasper Lau.
    Jeg arbejder til dagligt med søgemaskineoptimering og webudvikling i Århus.

    Bloggen her eksisterer pga. min interesse inden for søgemaskineoptimering og det er da også SEO, bloggen handler om.
    Du kan forvente at finde artikler om alt indenfor internet og SEO, så hvis du synes dét er interessant, så kig dig endelig lidt omkring.


    SEO - Kasper Lau