Arquivo robots.txt — este é o arquivo principal, que descreve as regras para a manipulação de páginas de pesquisa de robôs. Este ficheiro, precisa de um para especificar o nome principal do site, um mapa do site (sitemap.xml), abertas e fechadas seções do site.
Arquivo robots.txt inclui as seguintes directivas:
- User-agent — directiva aponta para um robô, as seguintes regras
- * - todos os robôs
- Yandex — principal robô Yandex
- O Googlebot — principal robô do Google
- StackRambler — robô de busca Rambler
- Aport — robô de busca Апорт
- Slurp — robot Yahoo
- MSNBot — robot MSN
- Disallow — directiva de restrição do site
- Allow — directiva permissões do site
- Host — directiva designar o nome do site
- Sitemap— directiva especificar um mapa do site (sitemap.xml)
- Crawl-delay — diretiva especifica o número de segundos que o robô pode esperar por uma resposta do site (é necessário fortemente carregados de recursos, para o robô não considerou que o site inacessível)
- Clean-param — diretiva que descreve a dinâmica de configurações não afetam o conteúdo do site
Помимо директив в robots.txt используются спец символы:
- * - любай (incluindo e um) a seqüência de caracteres
- $ — é uma limitação regras
Para a elaboração do robots.txt são usados acima da directiva e speth caracteres pelo seguinte princípio:
- Especifica o nome do robô para a qual é escrita a lista de regras de
(User-agent: * a regra para todos os robôs) - Escrito lista de bloqueios de seções do site para um determinado robô
( Disallow: / - impedir a indexação de todo o site) - Escrito quais seções do site
(Allow: /home/ — permitida a partição home) - Especifica o nome do site
(Host: crazysquirrel.ru — nome principal do site crazysquirrel.ru) - Especifica o caminho absoluto para o arquivo sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Se o site não de bloqueios de partição, robots.txt deve ter pelo menos 4 linhas:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Verificar robots.txt e como ele afeta a indexação do site você pode usar as ferramentas do Yandex