Файл robots.txt для яндекса
Часто возникает вопрос - какой robots.txt проставить, когда сайт только приходит? Есть ли правильный robots.txt ? Robots.txt для Яндекса - особенный?
Минимальный robots.txt
User-Agent: *
Host: www.site.ru
В большинстве случаев больше ничего не нужно. В первой строчке (User-Agent: *) вы показываете, что инструкция - для всех роботов.
Во второй строчке (Host: www.site.ru) вы показываете какое у сайта главное зеркало. Выбирайте то зеркало, которое вы хотите, чтобы отображалось в поиске.
Редактируем robots.txt от CMS
Если CMS (например Drupal) что-то уже от себя прописала в robots.txt, то поставьте инструкции для robots.txt из первого пункта в самом начале. Как правило, в этом случае инструкция User-Agent: * уже есть, просто допишите про Host в конце столбика инструкций для User-Agent: *
robots.txt disallow
Запрет разделов и страниц от индексации с помощью robots.txt
Если вы что-то явно хотите запретить для индексации, то в файле robots.txt указывайте пункты disallow после указания user-agent, но до директивы host.
Заметьте, что Disallow: /private запретит доступ не только к /private, но и к /private/private1/file1.html, /private/file.html, и к самому /private. Т.е. по умолчанию ко всем инструкциям как бы приписан символ звездочки.
Запрещаем урлы с произвольным буквосочетанием
Звездочка означает любую последовательность символов.
C помощью директив Disallow вы можете запретить урлы, в которых встречается определенное буквосочетание - это огромная сила (так можно запретить, например, индексацию корзины в интернет-магазине)
Пример из Яндекса:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private'
Т.е. с помощью символа звездочки вы можете творить чудеса.
Символ $ (доллара) в robots.txt
Еще есть довольно интересный символ - $, он отменяет невидимо приписанный в конце каждой инструкции символ звездочки. Т.е.
Disallow: /private$
запрещает индексацию /private и все. При этом файлы /private/file1.html, /private/private1 разрешены к индексации. Иногда довольно полезная штука.
Корректируем robots.txt, если нужно, получая информацию из яндекс.вебмастер
Далее - зарегистрируйте сайт в яндекс.вебмастер и смотрите, есть ли какие либо проблемы с индексацией, нет ли индексации нежелательных страниц и т.п. Можно смотреть индексацию через яндекс.вебмастер или просто запросом url:www.site.ru*, и в найденном поискать страницы, которые вы запретили или разрешили к индексации.
Как составить правильный robots.txt для яндекса?
Где еще почитать про robots.txt
1) Вот это обязательно гляньте - официальная инструкция от Яндекса. Очень толково и без лишней воды.
2) Статья в википедии про robots.txt - учтите, это для всех роботов, не только для Яндекса
