Файл robots.txt для яндекса

 

Часто возникает вопрос - какой robots.txt проставить, когда сайт только приходит? Есть ли правильный robots.txt ? Robots.txt для Яндекса - особенный?

Минимальный robots.txt

User-Agent: *

Host: www.site.ru

В большинстве случаев больше ничего не нужно. В первой строчке (User-Agent: *) вы показываете, что инструкция - для всех роботов. 

Во второй строчке (Host: www.site.ru) вы показываете какое у сайта главное зеркало. Выбирайте то зеркало, которое вы хотите, чтобы отображалось в поиске. 


Редактируем robots.txt от CMS

Если CMS (например Drupal) что-то уже от себя прописала в robots.txt, то поставьте инструкции для robots.txt из первого пункта в самом начале. Как правило, в этом случае инструкция User-Agent: * уже есть, просто допишите про Host в конце столбика инструкций для User-Agent: *

 

robots.txt disallow

Запрет разделов и страниц от индексации с помощью robots.txt

Если вы что-то явно хотите запретить для индексации, то в файле robots.txt указывайте пункты disallow после указания user-agent, но до директивы host.  

Заметьте, что Disallow: /private запретит доступ не только к /private, но и к /private/private1/file1.html, /private/file.html, и к самому /private. Т.е. по умолчанию ко всем инструкциям как бы приписан символ звездочки.

Запрещаем урлы с произвольным буквосочетанием

Звездочка означает любую последовательность символов.

C помощью директив Disallow вы можете запретить урлы, в которых встречается определенное буквосочетание - это огромная сила (так можно запретить, например, индексацию корзины в интернет-магазине)

Пример из Яндекса:

User-agent: Yandex

Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'

                          # и '/cgi-bin/private/test.aspx'

Disallow: /*private # запрещает не только '/private',

                    # но и '/cgi-bin/private'

Т.е. с помощью символа звездочки вы можете творить чудеса.

Символ $ (доллара) в robots.txt

Еще есть довольно интересный символ - $, он отменяет невидимо приписанный в конце каждой инструкции символ звездочки. Т.е. 

Disallow: /private$

запрещает индексацию /private и все. При этом файлы /private/file1.html, /private/private1 разрешены к индексации. Иногда довольно полезная штука.

 

Корректируем robots.txt, если нужно, получая информацию из яндекс.вебмастер

Далее - зарегистрируйте сайт в яндекс.вебмастер и смотрите, есть ли какие либо проблемы с индексацией, нет ли индексации нежелательных страниц и т.п. Можно смотреть индексацию через яндекс.вебмастер или просто запросом url:www.site.ru*, и в найденном поискать страницы, которые вы запретили или разрешили к индексации.

Как составить правильный robots.txt для яндекса? 

Где еще почитать про robots.txt

1) Вот это обязательно гляньте - официальная инструкция от Яндекса. Очень толково и без лишней воды. 

2) Статья в википедии про robots.txt - учтите, это для всех роботов, не только для Яндекса

Ваша оценка: Нет Средняя: 3.3 (3 голосов)