Et av verktøyene for å administrere indeksering av nettsteder av søkemotorer er robots.txt-filen. Den brukes hovedsakelig for å forhindre at alle eller bare visse roboter laster ned innholdet i visse sidegrupper. Dette gjør at du kan bli kvitt "søppel" i søkemotorresultatene og i noen tilfeller forbedre rangeringen av ressursen betydelig. Det er viktig å ha den riktige robots.txt-filen for vellykket applikasjon.
Nødvendig
tekstredigerer
Bruksanvisning
Trinn 1
Lag en liste over roboter som det vil bli satt spesielle ekskluderingsregler for, eller direktiver for den utvidede robots.txt-standarden, så vel som ikke-standardiserte og spesifikke direktiver (utvidelser av en bestemt søkemotor) vil bli brukt. Skriv inn verdiene til User-Agent-feltene i HTTP-forespørselsoverskriftene som er sendt av de valgte robotene til nettstedsserveren. Navnene på robotene finner du også i referansedelen på søkemotorsidene.
Steg 2
Velg gruppene med nettadresser til nettstedsressursene som hver av robotene skal nektes tilgang til i listen som ble samlet i det første trinnet. Utfør den samme operasjonen for alle andre roboter (et ubestemt sett med indekseringsroboter). Resultatet skal med andre ord være flere lister som inneholder lenker til seksjoner på nettstedet, sidegrupper eller kilder til medieinnhold som det er forbudt å indeksere. Hver liste må tilsvare en annen robot. Det bør også være en liste over forbudte URL-er for alle andre bots. Lag lister basert på sammenligningen av den logiske strukturen til nettstedet med den fysiske plasseringen av dataene på serveren, samt ved å gruppere URL-ene til sidene i henhold til deres funksjonelle egenskaper. For eksempel kan du inkludere i nektelistene innholdet i eventuelle tjenestekataloger (gruppert etter sted) eller alle brukerprofilsidene (gruppert etter formål).
Trinn 3
Velg URL-tegn for hver av ressursene i listene som ble samlet i andre trinn. Når du behandler ekskluderingslister for roboter som bare bruker standard robots.txt-direktiver og udefinerte roboter, markerer du de unike URL-delene med maksimal lengde. For de gjenværende adressesettene kan du opprette maler i samsvar med spesifikasjonene til bestemte søkemotorer.
Trinn 4
Opprett en robots.txt-fil. Legg til grupper med direktiver til den, som hver tilsvarer et sett med forbudte regler for en bestemt robot, hvis liste ble samlet i det første trinnet. Sistnevnte bør følges av en gruppe direktiver for alle andre roboter. Separate regelgrupper med en enkelt tom linje. Hvert regelsett må begynne med et brukeragentdirektiv som identifiserer roboten, etterfulgt av et Disallow-direktiv, som forbyr indeksering av URL-grupper. Lag linjene oppnådd i tredje trinn med verdiene i Disallow-direktivene. Separat direktivene og deres betydning med et kolon. Tenk på følgende eksempel: Brukeragent: YandexDisallow: / temp / data / images / User-agent: * Disallow: / temp / data / Dette settet med instruksjoner instruerer hovedroboten til Yandex-søkemotoren skal ikke indeksere URL-en som inneholder understreng / temp / data / bilder /. Det forhindrer også alle andre roboter i å indeksere nettadresser som inneholder / temp / data /.
Trinn 5
Suppler robots.txt med utvidede standarddirektiv eller spesifikke søkemotordirektiver. Eksempler på slike direktiver er: Vert, Sitemap, Request-rate, Visit-time, Crawl-delay.