O correto robots.txt

Arquivo robots.txt — este é o arquivo principal, que descreve as regras para a manipulação de páginas de pesquisa de robôs. Este ficheiro, precisa de um para especificar o nome principal do site, um mapa do site (sitemap.xml), abertas e fechadas seções do site.
Arquivo robots.txt inclui as seguintes directivas:

  • User-agent — directiva aponta para um robô, as seguintes regras
    • * - todos os robôs
    • Yandex — principal robô Yandex
    • O Googlebot — principal robô do Google
    • StackRambler — robô de busca Rambler
    • Aport — robô de busca Апорт
    • Slurp — robot Yahoo
    • MSNBot — robot MSN
  • Disallow — directiva de restrição do site
  • Allow — directiva permissões do site
  • Host — directiva designar o nome do site
  • Sitemap— directiva especificar um mapa do site (sitemap.xml)
  • Crawl-delay — diretiva especifica o número de segundos que o robô pode esperar por uma resposta do site (é necessário fortemente carregados de recursos, para o robô não considerou que o site inacessível)
  • Clean-param — diretiva que descreve a dinâmica de configurações não afetam o conteúdo do site

Помимо директив в robots.txt используются спец символы:

  • * - любай (incluindo e um) a seqüência de caracteres
  • $ — é uma limitação regras

Para a elaboração do robots.txt são usados acima da directiva e speth caracteres pelo seguinte princípio:

  • Especifica o nome do robô para a qual é escrita a lista de regras de
    (User-agent: * a regra para todos os robôs)
  • Escrito lista de bloqueios de seções do site para um determinado robô
    ( Disallow: / - impedir a indexação de todo o site)
  • Escrito quais seções do site
    (Allow: /home/ — permitida a partição home)
  • Especifica o nome do site
    (Host: crazysquirrel.ru — nome principal do site crazysquirrel.ru)
  • Especifica o caminho absoluto para o arquivo sitemap.xml
    (Sitemap: https:// crazysquirrel.ru/sitemap.xml)

Se o site não de bloqueios de partição, robots.txt deve ter pelo menos 4 linhas:

User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml

Verificar robots.txt e como ele afeta a indexação do site você pode usar as ferramentas do Yandex

Ver e deixar comentários