![]() |
использование robots.txt
Введение
Стандарт исключений для роботов по сути своей очень прост. Вкратце, это работает следующим образом: Когда робот, соблюдающий стандарт заходит на сайт, он прежде всего запрашивает файл с названием «/robots.txt». Если такой файл найден, Робот ищет в нем инструкции, запрещающие индексировать некоторые части сайта. Где размещать файл robots.txt Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту. На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots. Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре. Что писать в файл robots.txt В файл robots.txt обычно пишут нечто вроде: Цитата:
Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга. Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются. Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации. Вот несколько примеров: Запретить весь сайт для индексации всеми роботами Цитата:
Цитата:
Закрыть от индексации только несколько каталогов Цитата:
Цитата:
Цитата:
Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию: Цитата:
Цитата:
(с) robotstxt.org.ru самый полный перечень юзерагентов поисковых ботов http://www.user-agents.org/index.shtml кста там идет разделение и описание Цитата:
кста намного проще не оставлять ссылок на этот файл/директорию.. тогда ее никто не проиндексит и найти тоже не реально/*ну разве сканером брутом*/ |
Нестандартные директивы и расширения
Директива Crawl-delay Начнем издалека. Поисковые роботы Yahoo и MSN, Slurp и msnbot соответственно, понимают такую дополнительную директиву, как Crawl-delay. Значением данной директивы должна быть цифра, которая указывает время в секундах между обращениями робота к сайту. Данная директива была добавлена после неоднократных обращений пользователей в службу технической поддержки указанных компаний по поводу слишком частых запросов роботов и, соответственно, высокой нагрузке серверов и большому исходящему трафику. Для сайтов, размещенных на площадках в Украине и России, трафик, отдаваемый роботам, является зарубежным, поэтому имеет смысл использовать директиву Crawl-delay для снижения нагрузки и исходящего трафика, в особенности для крупных сайтов. Директива Allow Поисковая система Google использует в своих алгоритмах наибольшее количество расширений. Одно из таких расширений — директива Allow. В качестве значения указывается частичный путь, который разрешается индексировать роботу. С помощью этой директивы возможно разрешить индексацию одного файла в то время, когда вся папка запрещена к индексации, например: Цитата:
Символы подстановки Символы подстановки скрывают за собой один или несколько символов. Наиболее часто употребляющийся символ — «*», который обозначает ноль и более символов. Использование символов подстановки в файле robots.txt не предусмотрено, кроме указания всех остальных поисковых систем в директиве User-agent, однако в директиве Disallow данный символ в протоколе не интерпретируется никак иначе самого себя. Однако Google в своих алгоритмах допускает использование символа «*» в качестве «множества любых символов», а также символа «$» в качестве «конца строки». В результате можно блокировать адреса с заданным динамическим параметром, независимо от того, где в адресе данный параметр встречается, а также блокировать все файлы с определенным расширением, например: Цитата:
Директива Host Директива Host является наиболее широко известной нестандартной директивой в Рунете. Это директива для робота поисковой системы Яндекс, ответственного за работу с зеркалами. Значением директивы должен быть адрес главного зеркала сайта без http://. При указании главного зеркала сайта, все остальные адреса сайта будут считать второстепенными зеркалами «приклеются» к главному. Однако, следует заметить, что, в отличие от всех остальных директив robots.txt, директива Host является лишь рекомендацией роботу, а не четким указанием адреса главного зеркала. (с) starsite.ru |
| Время: 23:17 |