FeraS
09.01.2008, 02:07
Что такое robots.txt
robots.txt - Файл для ограничения доступа к содержимому роботам на HTTP сервере. Его необходимо размещать в корневой директории сайта.
Инструкции, содержащиеся в файле, могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому боту соблюдать определенный временной интервал между скачиванием документов с сервера и др.
Имя файла не должно содержать заглавных букв! Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки.
Создание файла
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл.
Описание
В файл robots.txt обычно пишут примерно следующее:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
В этом случае будет запрещена индексация директорий /cgi-bin и /tmp.
! Каждая директория указана на отдельной строке - нельзя написать:
Disallow: /cgi-bin/ /tmp/
Также нельзя разбивать инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. "Звездочка" (*) в инструкции User-agent означает "любой робот". Инструкции вида:
Disallow: *.gif
или
User-agent: Ya*
не поддерживаются!
----
Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
(Аналогично пустому файлу robots.txt)
Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Полезные ссылки
Энциклопедия поисковых систем (http://searchengines.ru)
Приоритеты обработки записей в robots.txt (http://notes.webartsolutions.com/archives/000213.html)
Работа над файлом robots.txt (http://www.seo.su/articles.php?id=89)
Управление индексацией сайта (файл robots.txt) (http://web-blog.ru/2005/12/09/robots)
robots.txt - Файл для ограничения доступа к содержимому роботам на HTTP сервере. Его необходимо размещать в корневой директории сайта.
Инструкции, содержащиеся в файле, могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому боту соблюдать определенный временной интервал между скачиванием документов с сервера и др.
Имя файла не должно содержать заглавных букв! Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки.
Создание файла
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл.
Описание
В файл robots.txt обычно пишут примерно следующее:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
В этом случае будет запрещена индексация директорий /cgi-bin и /tmp.
! Каждая директория указана на отдельной строке - нельзя написать:
Disallow: /cgi-bin/ /tmp/
Также нельзя разбивать инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.
Регулярные выражения и символы подстановки так же нельзя использовать. "Звездочка" (*) в инструкции User-agent означает "любой робот". Инструкции вида:
Disallow: *.gif
или
User-agent: Ya*
не поддерживаются!
----
Запретить весь сайт для индексации всеми роботами
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт
User-agent: *
Disallow:
(Аналогично пустому файлу robots.txt)
Закрыть от индексации только несколько каталогов
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Запретить индексацию сайта только для одного робота
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /
Полезные ссылки
Энциклопедия поисковых систем (http://searchengines.ru)
Приоритеты обработки записей в robots.txt (http://notes.webartsolutions.com/archives/000213.html)
Работа над файлом robots.txt (http://www.seo.su/articles.php?id=89)
Управление индексацией сайта (файл robots.txt) (http://web-blog.ru/2005/12/09/robots)