PDA

Просмотр полной версии : robots.txt


FeraS
09.01.2008, 02:07
Что такое robots.txt

robots.txt - Файл для ограничения доступа к содержимому роботам на HTTP сервере. Его необходимо размещать в корневой директории сайта.
Инструкции, содержащиеся в файле, могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому боту соблюдать определенный временной интервал между скачиванием документов с сервера и др.

Имя файла не должно содержать заглавных букв! Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки.

Создание файла
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл.

Описание
В файл robots.txt обычно пишут примерно следующее:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
В этом случае будет запрещена индексация директорий /cgi-bin и /tmp.

! Каждая директория указана на отдельной строке - нельзя написать:
Disallow: /cgi-bin/ /tmp/
Также нельзя разбивать инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. "Звездочка" (*) в инструкции User-agent означает "любой робот". Инструкции вида:
Disallow: *.gif
или
User-agent: Ya*
не поддерживаются!

----

Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
(Аналогично пустому файлу robots.txt)

Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Полезные ссылки

Энциклопедия поисковых систем (http://searchengines.ru)
Приоритеты обработки записей в robots.txt (http://notes.webartsolutions.com/archives/000213.html)
Работа над файлом robots.txt (http://www.seo.su/articles.php?id=89)
Управление индексацией сайта (файл robots.txt) (http://web-blog.ru/2005/12/09/robots)

FeraS
09.01.2008, 02:08
Частые ошибки

Перепутанные инструкции
Неправильно:
User-agent: /
Disallow: Yandex

Правильно:
User-agent: Yandex
Disallow: /

Несколько каталогов в одной инструкции Disallow
Нельзя:
Disallow: /css/ /cgi-bin/ /images/
Запись, нарушающая стандарт, угадать, как ее обработают разные роботы невозможно.
Некоторые просто отбросят пробелы и интерпретируют как:
Disallow: /css/cgi-bin/images/
Кто-то может просто отбросить эту инструкцию.

Правильно писать так:
Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Имя файла написано неправильно
Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT и уж никак не robot.txt

Пустая строка в User-agent
Неправильно:
User-agent:
Disallow:

Правильно:
User-agent: *
Disallow:

URL в директиве Host
URL необходимо писать без префикса http:// и без закрывающего слеша /

Неправильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.aeweb.ru/

Правильно:
User-agent: Yandex
Disallow: /cgi-bin
Host: www.aeweb.ru
Эта директива корректна только для роботов Яндекса

Символы подстановки в Disallow
Нельзя:
User-agent: *
Disallow: file*.html
Хотя некоторые роботы ее поддерживают
http://www.google.ru/support/webmasters/bin/answer.py?answer=40367&topic=8846