Директивы robots и их настройка
Robots.txt — это файл, который размещается в корневом каталоге сайта с целью настройки действий поисковых роботов. По факту у вебмастера имеется возможность создания управляющих директив для поисковиков, которые будут влиять на действие роботов. На практике Robots.txt не является обязательным, это только возможность, которая дополнительно может быть использована разработчиками сайтов для прямого управления индексацией сайта.
Файл сохраняется в обычном текстовом формате и редактируется штатными средствами Windows. В частности, можно настроить или запретить считывание роботами отдельных директорий сайта, что позволит также избежать падения уникальности.
Обратите внимание, что все директивы Robots.txt могут быть составлены как универсально, так и для определенного типа поискового робота.
Например,
User-agent: YandexBot
Disallow: /cart
Предполагает, что для поискового робота Яндекса запрещено индексировать каталог /cart. При запрете индексации страницы, соответственно, вводится ее внутренний адрес. Если в директиве указано Disallow: /, это будет обозначать запрет на индексацию сайта. Добавление Allow: /articles будет подразумевать разрешение на индексацию только статей. Таким образом, с помощью довольно простых методов можно настроить индексацию собственного веб-ресурса по своему пониманию.
В некоторых случаях можно установить полный запрет на индексацию, это часто необходимо в период технических работ, особенно, когда из-за отсутствия времени на сайте размещаются не уникальные статьи.
Обычно для поисковиков не нужно прописывать местоположение файла Robots.txt, но если он расположен не в корневой директории, то это можно сделать с помощью метатега на странице портала в заголовке <head> </head>. Отдельные ссылки и текст могут быть исключены из индексации с помощью тегов follow/nofollow и index/noindex.
В качестве комментария лучше ознакомится со стандартным наполнением файла, который может быть использован в качестве шаблона. Пример поможет разобраться во всех тонкостях и возможностях и успешно управлять действиями поисковых роботов.