robots.txt - Файл для ограничения доступа к содержимому роботам на HTTP сервере. Его необходимо размещать в корневой директории сайта.
Инструкции, содержащиеся в файле, могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому боту соблюдать определенный временной интервал между скачиванием документов с сервера и др.
Имя файла не должно содержать заглавных букв! Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки.
Создание файла
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл.
Описание
В файл robots.txt обычно пишут примерно следующее:
Код:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
В этом случае будет запрещена индексация директорий /cgi-bin и /tmp.
! Каждая директория указана на отдельной строке - нельзя написать:
Код:
Disallow: /cgi-bin/ /tmp/
Также нельзя разбивать инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. "Звездочка" (*) в инструкции User-agent означает "любой робот". Инструкции вида:
Код HTML:
Disallow: *.gif
или
Код:
User-agent: Ya*
не поддерживаются!
----
Запретить весь сайт для индексации всеми роботами
Код:
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
Код:
User-agent: *
Disallow:
(Аналогично пустому файлу robots.txt)
Закрыть от индексации только несколько каталогов
Код:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Запретить индексацию сайта только для одного робота
Код:
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным