Robots.txt — составляем по новому
Robots.txt - составляем по новому
Всем привет уважаемые читатели блога Сам себе Seoшник!
Совсем недавно мне на почту пришло сообщение о том, что появились изменения в обработке директивы "Disallow" и "Allow" в файлах robots.txt. Поэтому почитав новые правила я решил разместить robots.txt начинающих блоггеров на нашем сайте, чтобы пользователи еще не узнавшие о нововведениях смогли без дальнейших последствий работать в robots.
Robots для wordpress
Использование директив Allow и Disallow
Для того чтобы запретить доступ робота к каким-либо частям или к сайту полностью, используется директива "Disallow". Например:
User-agent: Yandex
Disallow: / # запрещает роботу доступ ко всему сайтуUser-agent: Yandex
Disallow: /cgi-bin # запрещает роботу доступ к страницам
#начинающимся с '/cgi-bin'
Замечу, что категорически нельзя оставлять пустые строки между директивами "Disallow" и "User-agent".
Кроме этого, рекомендуется оставлять пустую строку перед директивой "User-agent" (Об этом написано в сервисе Яндекс.Помощь).
Знак "#" нужен для описание комментариев. Все, что находится до и после этого символа не учитывается.
Для того чтобы разрешить доступ робота к каким-либо частям или к сайту целиком, используется директива "Allow". Например:
User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# недопускает загружать все, кроме страниц
# начинающихся с '/cgi-bin'
Обоюдное использование директив
Директивы Disallow и Allow проходят сортировку по длине префикса URL (префикс - это любой набор символов в начале какого-то ряда, слов, цифр и т.д.) и применяются последовательно. Бывает так, что для какой-то страницы сайта подходит сразу несколько директив. В этом случае выбирается последняя в порядке появления в сортированном списке. Например:
# Исходный robots.txt:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Сортированный robots.txt:
User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает загружать только страницы,
# начинающиеся с '/catalog'
# Исходный robots.txt:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Сортированный robots.txt:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает загружать страницы, начинающиеся с '/catalog',
# но разрешает загружать страницы, начинающиеся с '/catalog/auto'.
Важно. Если возник "конфликт" между директивами с префиксами одной и той же длины, предпочтение отдается директиве Allow.
Понравилась статья подпишитесь на обновления блога!
автор: Ловцов Алексей
Добрый день, большое спасибо за статью, она была полезной. А не подскажете где можно найти пример готового нового robota txt.За ранее благодарна
Здравствуйте Елена!
Вот этот Robots.txt я использую у себя на блогах и на данный момент считаю правильным:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: site.ru
Sitemap: http://site.ru/sitemap.xml.gz
Sitemap: http://site.ru/sitemap.xml
Только не забудьте вместо site.ru добавить свой!
забыли сказать что этот robots.txt только для WordPress.
Вы верно подметили. =)
Большое вам спасибо:)