De fleste erfarne bloggere vet absolutt hva robots.txt er og hvorfor du trenger denne filen. Men få forfattere skynder seg straks å lage en robots.txt-fil etter at de har installert en blogg på WordPress.
Robots.txt er en tekstfil som lastes opp til rotkatalogen på nettstedet ditt og inneholder instruksjoner for crawlere. Hovedformålet med bruken er å forby indeksering av individuelle sider og seksjoner på nettstedet. Ved å bruke robots.txt kan du imidlertid også spesifisere riktig domenespeil, foreskrive stien til områdekartet og lignende.
De fleste moderne søkemotorer har lært å navigere i populære CMS og prøver vanligvis ikke å indeksere innhold som ikke er ment for dette. For eksempel vil Google ikke indeksere WordPress-bloggadministrasjonsområdet selv om du ikke spesifiserer det direkte i robots.txt. Imidlertid kan bruk av direkte forbud i noen tilfeller fortsatt være nyttig. Og vi snakker først og fremst om forbudet mot duplisert innhold.
Noen nettredaktører går så langt som å forby indeksering av kategori- og taggsider, siden innholdet deres delvis dupliserer innholdet på hovedsiden. Men de fleste er begrenset til å forby trackback- og feed-sider, som fullstendig dupliserer artikkelinnhold og er ikke ment for søkemotorer i det hele tatt. En slik forholdsregel vil ikke bare gjøre nettstedets resultater "renere", men også spare deg for mulige søkefiltre, spesielt etter introduksjonen av den nye Google Panda-algoritmen.
Her er de anbefalte retningslinjene for en robots.txt-fil (den fungerer for nesten hvilken som helst WordPress-blogg):
User-Agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: / wp-admin Disallow: / wp-includes Disallow: / wp-content / plugins Disallow: / wp-innhold / cache Ikke tillat: / wp-innhold / temaer Ikke tillat: / trackback / Disallow: / feed / Disallow: * / trackback / Disallow: * / feed /
Vær oppmerksom på at i robots.txt er de administrative mappene wp-admin og wp-inkluderer helt stengt for indeksering. Wp-innhold-mappen er bare delvis lukket, siden den inneholder opplastningskatalogen, som inneholder alle bildene fra bloggen din som skal indekseres.
Alt du trenger å gjøre er å kopiere direktivene fra koden ovenfor (merk at hvert direktiv må skrives på en ny linje), lagre dem i en tekstfil som heter robots.txt, og laste dem opp til rotkatalogen på nettstedet ditt.
Du kan alltid sjekke om robots.txt fungerer riktig gjennom Googles grensesnitt for nettredaktører og Yandex nettredaktører.