SEO: Что такое Robots.txt?

Август 28th, 2012 |

SEO: Что такое Robots.txt?

Доброго времени суток уважаемые читатели блога Сам себе Seoшник!

Robots.txt – этакой текстовый документ, который находиться в корневой папке Вашего web-сайта. В нем содержатся некие инструкции для поисковых систем и роботов. С его помощью можно запрещать индексацию тех или иных файлов и разделов, также можно указывать основное зеркало и путь к другому файлу, тоже специальному и не менее важному, sitemap.

SEO: Что такое Robots.txt?

Robots.txt – очень и очень полезный файл. А полезность его наблюдается на примере запрета индексации технических страниц и разделов на Вашем ресурсе. Если техническая информация открыта для индексации робот поисковик постарается выбросить их из индекса. А в следствии чего могут быть закрыты страницы или разделы, имеющие важную и уникальную информацию. У новичков часто возникает вопрос: “А как же создать этот файл?”. А создается этот файл очень и очень просто, с помощью обычного блокнота. Созданный файл помещается в корневой раздел Вашего ресурса. Первое, что сделает, каждый робот поисковик войдя к Вам на сайт, это прочитает файл с инструкциями, которым и является robots.txt.

Как правильно настроить robots.txt?

Чтобы настроить robots.txt правильно используют две основные и несколько дополнительных директив. Итак, начнем с двух основных: первая User-agent, и вторая Disallow. Первая из них отвечает за определение, какой именно робот поисковик будет выполнять инструкции по запрету на индексацию, который прописан во второй. Работая с этим файлом надо быть крайне осторожным, при ошибке последствия могут быть печальными, но о них позже. Итак, пример настройки: User-agent:* Disallow:/ - в этом порядке по инструкции будет запрещаться к индексированию абсолютно весь сайт для всех поисковых систем. Но если после Disallow указать путь к нужному Вам файлику, то робот не будет индексировать только этот файл или файлы. Также, если поменять Disallow на Allow, указанные файлы наоборот будут индексироваться, а все остальные нет. Никогда не указывайте несколько путей к разделам или файлам в одной строке, иначе она перестанет работать.

Как уже говорилось в robots.txt используют и другие директивы:
Host – используется только тогда, когда Ваш сайт имеет не одно зеркало, а несколько. А директива указывает на основное, которое будет выдаваться поисковыми системами.
Sitemap – директива, а точнее команда, помогающая роботу поисковику определить местонахождения файла с картой ресурса.
Crawl-delay – директива, которая используется для установки задержек между загрузками страничек Вашего ресурса поисковой системой. Функция очень полезна, если Ваш сайт имеет огромное количество страниц. Crawl-delay: 5 – означает, что пауза между загрузками будет длиться 5 секунд.
Request-rate – директива, которая несет ответственность за периодичность загрузки страниц роботом поисковиком. К примеру: Request-rate: 1/10 – означает, что страничка роботом будет загружаться 10 секунд.
Итак, последняя директива – Visit-time. Она отвечает за тот промежуток времени, в который Ваш ресурс будет работать, и его можно будет посещать. Время выставляется исключительно по Гринвичу, например: Visit-time: 0400-0600.

К чему могут привести некорректные настройки robots.txt?

Неверная настройка этого файла приводит к тому, что скрытные разделы, например, с конфиденциальной информацией Вас или Ваших посетителей будут открыты к поиску или наоборот, страницы с уникальной информацией будут запрещены к поиску и удалены из индекса.

Как проверить верно ли настроен robots.txt?

Итак, лучше всего для этого использовать специальный сервис от Яндекс.Webmaster, а называется этот сервис Анализ robots.txt. В появившиеся поле надо ввести домен проверяемого сайта, после Вы увидите все ошибки, которые надо будет исправлять.

Подписка на обновление блога!