ANTICHAT.XYZ    VIDEO.ANTICHAT.XYZ    НОВЫЕ СООБЩЕНИЯ    ФОРУМ  
Баннер 1   Баннер 2
Antichat снова доступен.
Форум Antichat (Античат) возвращается и снова открыт для пользователей. Здесь обсуждаются безопасность, программирование, технологии и многое другое. Сообщество снова собирается вместе.
Новый адрес: forum.antichat.xyz
Вернуться   Форум АНТИЧАТ > SЕО/Финансовые задачи/Социальные сети > SЕО - тонкости, методы раскрутки > Статьи
   
Ответ
 
Опции темы Поиск в этой теме Опции просмотра

использование robots.txt
  #1  
Старый 22.10.2007, 19:23
Аватар для halkfild
halkfild
Leaders of Antichat - Level 4
Регистрация: 11.11.2005
Сообщений: 391
Провел на форуме:
7084941

Репутация: 2277
По умолчанию использование robots.txt

Введение
Стандарт исключений для роботов по сути своей очень прост. Вкратце, это работает следующим образом:
Когда робот, соблюдающий стандарт заходит на сайт, он прежде всего запрашивает файл с названием «/robots.txt». Если такой файл найден, Робот ищет в нем инструкции, запрещающие индексировать некоторые части сайта.

Где размещать файл robots.txt

Робот просто запрашивает на вашем сайте URL «/robots.txt», сайт в данном случае – это определенный хост на определенном порту.

На сайте может быть только один файл «/robots.txt». Например, не следует помещать файл robots.txt в пользовательские поддиректории – все равно роботы не будут их там искать. Если вы хотите иметь возможность создавать файлы robots.txt в поддиректориях, то вам нужен способ программно собирать их в один файл robots.txt, расположенный в корне сайта. Вместо этого можно использовать Мета-тег Robots.

Не забывайте, что URL-ы чувствительны к регистру, и название файла «/robots.txt» должно быть написано полностью в нижнем регистре.

Что писать в файл robots.txt

В файл robots.txt обычно пишут нечто вроде:


Цитата:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
В этом примере запрещена индексация трех директорий.

Затметьте, что каждая директория указана на отдельной строке – нельзя написать «Disallow: /cgi-bin/ /tmp/». Нельзя также разбивать одну инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. «Звездочка» (*) в инструкции User-agent означает «любой робот». Инструкции вида «Disallow: *.gif» или «User-agent: Ya*" не поддерживаются.

Конкретные инструкции в robots.txt зависят от вашего сайта и того, что вы захотите закрыть от индексации.
Вот несколько примеров:
Запретить весь сайт для индексации всеми роботами

Цитата:
User-agent: *
Disallow: /
Разрешить всем роботам индексировать весь сайт

Цитата:
User-agent: *
Disallow:
Или можете просто создать пустой файл «/robots.txt».
Закрыть от индексации только несколько каталогов

Цитата:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
Запретить индексацию сайта только для одного робота

Цитата:
User-agent: BadBot
Disallow: /
Разрешить индексацию сайта одному роботу и запретить всем остальным

Цитата:
User-agent: Yandex
Disallow:

User-agent: *
Disallow: /
Запретить к индексации все файлы кроме одного

Это довольно непросто, т.к. не существует инструкции “Allow”. Вместо этого можно переместить все файлы кроме того, который вы хотите разрешить к индексации в поддиректорию и запретить ее индексацию:

Цитата:
User-agent: *
Disallow: /docs/
Либо вы можете запретить все запрещенные к индексации файлы:

Цитата:
User-agent: *
Disallow: /private.html
Disallow: /foo.html
Disallow: /bar.html
(с) robotstxt.org.ru

самый полный перечень юзерагентов поисковых ботов
http://www.user-agents.org/index.shtml

кста там идет разделение и описание
Цитата:
B (Client) browser
C Link-, bookmark-, server- checking
D Downloading tool
P Proxy server, web filtering
R Robot, crawler, spider
S Spam or bad bot
з.ы. то что вы пишете как запрет индексировать поисковикам я смотрю в первую очередь =) /*да и не только я*/

кста намного проще не оставлять ссылок на этот файл/директорию.. тогда ее никто не проиндексит и найти тоже не реально/*ну разве сканером брутом*/
 
Ответить с цитированием

  #2  
Старый 06.11.2007, 20:06
Аватар для halkfild
halkfild
Leaders of Antichat - Level 4
Регистрация: 11.11.2005
Сообщений: 391
Провел на форуме:
7084941

Репутация: 2277
По умолчанию

Нестандартные директивы и расширения

Директива Crawl-delay

Начнем издалека. Поисковые роботы Yahoo и MSN, Slurp и msnbot соответственно, понимают такую дополнительную директиву, как Crawl-delay. Значением данной директивы должна быть цифра, которая указывает время в секундах между обращениями робота к сайту. Данная директива была добавлена после неоднократных обращений пользователей в службу технической поддержки указанных компаний по поводу слишком частых запросов роботов и, соответственно, высокой нагрузке серверов и большому исходящему трафику. Для сайтов, размещенных на площадках в Украине и России, трафик, отдаваемый роботам, является зарубежным, поэтому имеет смысл использовать директиву Crawl-delay для снижения нагрузки и исходящего трафика, в особенности для крупных сайтов.

Директива Allow

Поисковая система Google использует в своих алгоритмах наибольшее количество расширений. Одно из таких расширений — директива Allow. В качестве значения указывается частичный путь, который разрешается индексировать роботу. С помощью этой директивы возможно разрешить индексацию одного файла в то время, когда вся папка запрещена к индексации, например:


Цитата:
User-Agent: Googlebot
Disallow: /papka1/
Allow: /papka1/moj_fail.html
В качестве эксперимента я попытался применить директиву Allow в одном robots.txt, однако в записи из 6-ти или 7-ми правил столкнулся с коллизиями, связанными с "перекрытиями" правил в Disallow и Allow, которые не удавалось однозначно решить, поэтому пришлось отказаться от использования данной директивы.

Символы подстановки

Символы подстановки скрывают за собой один или несколько символов. Наиболее часто употребляющийся символ — «*», который обозначает ноль и более символов. Использование символов подстановки в файле robots.txt не предусмотрено, кроме указания всех остальных поисковых систем в директиве User-agent, однако в директиве Disallow данный символ в протоколе не интерпретируется никак иначе самого себя.

Однако Google в своих алгоритмах допускает использование символа «*» в качестве «множества любых символов», а также символа «$» в качестве «конца строки». В результате можно блокировать адреса с заданным динамическим параметром, независимо от того, где в адресе данный параметр встречается, а также блокировать все файлы с определенным расширением, например:


Цитата:
# блокируются все адреса с параметром ts
Disallow: /*ts=*
# блокируются все адреса, заканчивающиеся на asp
Disallow: /*.asp$
В алгоритмах поисковой системы Рамблер также заложена функция обработки символа «*», как символа подстановки, т.е. приведенный выше пример с параметром ts можно использовать для запрещения индексации определенных динамических адресов роботом StackRambler.

Директива Host

Директива Host является наиболее широко известной нестандартной директивой в Рунете. Это директива для робота поисковой системы Яндекс, ответственного за работу с зеркалами. Значением директивы должен быть адрес главного зеркала сайта без http://. При указании главного зеркала сайта, все остальные адреса сайта будут считать второстепенными зеркалами «приклеются» к главному. Однако, следует заметить, что, в отличие от всех остальных директив robots.txt, директива Host является лишь рекомендацией роботу, а не четким указанием адреса главного зеркала.

(с) starsite.ru
 
Ответить с цитированием
Ответ



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Подробно о Robots.txt Zitt Чужие Статьи 1 26.07.2007 01:01
За использование офисного компьютера в личных целях придется заплатить налог dinar_007 Мировые новости 1 04.05.2006 11:33
Использование .htaccess foreva Чужие Статьи 0 07.02.2005 13:01
Использование поиска по интернету в своих целях foreva Чужие Статьи 0 07.02.2005 12:55
Использование спец. символов в нике Чаты 6 30.09.2002 10:39



Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT.XYZ