Robots.txt и WordPress.

Что такое Robots.txt? Текстовый файл, который содержит параметры индексирования сайта для поисковых систем. Понятно что без него не обходиться не один сайт. Находиться  он в корневой директории вашего сайта . Если вы его еще не создали , давайте это сделаем вместе.


Файл начинается с директива User-agent, которая указывает конкретному роботу что делать.


User-agent Yandex роботы Яндекс. Подробно посмотреть параметры можно на сайте робота.

User-agent * для всех роботов.


Далее идут директивы Disallow и Allow.


Disallow запретить доступ робота к сайту или некоторым его разделам. Allow разрешить доступ робота к сайту или некоторым его разделам. Директиве Allow следуют не все роботы, во всяком случае так говорят.


User-agent: Yandex

Allow: /catalog  разрешить индексировать каталог.

Disallow: /          запретить индексировать сайт.


В итоге: можно индексировать только каталог catalog.


Так же в этих директивах можно использовать регулярные выражения спецсимволов * и $.


Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:


Disallow: /cgi-bin/*.aspx запрещает ‘/cgi-bin/example.aspx’

и ‘/cgi-bin/private/private.aspx’ то есть любые файл с расширением aspx.

Disallow: /*private запрещает не только ‘/private’,

но и ‘/cgi-bin/private’ то есть любой путь где содержится private.


Далее следует директива  sitemap.


Если вы используете описание структуры сайта с помощью файла sitemap, то вы указываете к нему путь. Если фалов несколько вы можете указывать путь ко всем.


sitemap: http://example.com/sitemaps.xml

sitemap: http://example.com/sitemaps1.xml


Директива Host.


Собственно указывает на ваш host,  если у вас несколько зеркал то пишем главное зеркало.


Host: www.example.com


При необходимости можно указать порт.


Host: www.example.com:8080


Это основы использования файла robots.txt, более подробно и с нюансами отдельного робота, можно прочитать на сайте разработчика робота.


Общие рекомендации по файлу robots.txt (автор: Специалист по SEO и интернет-рекламе, Денис Биштейнов).


Закройте от индексирования админку сайта.
Закройте от индексирования личный кабинет, авторизацию, регистрацию.
Закройте от индексирования корзину, формы заказа, данные по доставке и заказам.
Закройте от индексирования ajax, json-скрипты.
Закройте от индексирования папку cgi.
Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google.
Закройте от индексирования функционал поиска.
Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов).
Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS).
Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения.
Закройте от индексирования страницы с параметрами UTM-меток и сессий.
Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
Укажите Sitemap и Host.


Ну а теперь пример моего файла robots.txt для сайта на WordPress с пояснениями.


User-agent: *
Disallow: /wp-admin        #закрываем админку
Disallow: /wp-includes
Disallow: /wp-content/plugins   #закрываем плагины
Disallow: /wp-content/cache   #закрывам кэш
Disallow: /wp-content/themes   #темы
Disallow: *?s=                  #поиск
Disallow: *&s=                 #поиск
Disallow: /search/              #поиск
Disallow: /cgi-bin             #папка на хостинге
Disallow: /?                    #все параметры запроса на главной
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: *utm=                  #UTM-меток
Disallow: /tag                   #тэги , на ваше усмотрение
Disallow: /comments              #закрываем коментарии
Disallow: */comment-*            #закрываем коментарии
Disallow: /readme.html
Host:
sitemap: sitemap.xml #файл карты сайта
sitemap: sitemap.xml.gz


Добавить комментарий

Автору будет очень приятно получить обратную связь.

Комментариев 0