Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   Статьи (https://forum.antichat.xyz/forumdisplay.php?f=119)
-   -   robots.txt (https://forum.antichat.xyz/showthread.php?t=57904)

FeraS 09.01.2008 02:07

robots.txt
 
Что такое robots.txt

robots.txt - Файл для ограничения доступа к содержимому роботам на HTTP сервере. Его необходимо размещать в корневой директории сайта.
Инструкции, содержащиеся в файле, могут запрещать к индексации некоторые разделы или страницы на сайте, рекомендовать поисковому боту соблюдать определенный временной интервал между скачиванием документов с сервера и др.

Имя файла не должно содержать заглавных букв! Записи в файле разделяются одной или несколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком “#” и заканчиваются окончанием строки.

Создание файла
Чтобы создать файл robots.txt, нужен простой текстовый файл. Если вы не собираетесь создавать запреты к индексации, можно сделать пустой файл.

Описание
В файл robots.txt обычно пишут примерно следующее:
Код:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

В этом случае будет запрещена индексация директорий /cgi-bin и /tmp.

! Каждая директория указана на отдельной строке - нельзя написать:
Код:

Disallow: /cgi-bin/ /tmp/
Также нельзя разбивать инструкцию Disallow или User-agent на несколько строк, т.к. перенос строки используется для отделения инструкций друг от друга.

Регулярные выражения и символы подстановки так же нельзя использовать. "Звездочка" (*) в инструкции User-agent означает "любой робот". Инструкции вида:
Код HTML:

Disallow: *.gif
или
Код:

User-agent: Ya*
не поддерживаются!

----

Запретить весь сайт для индексации всеми роботами
Код:

User-agent: *
Disallow: /

Разрешить всем роботам индексировать весь сайт
Код:

User-agent: *
Disallow:

(Аналогично пустому файлу robots.txt)

Закрыть от индексации только несколько каталогов
Код:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/

Запретить индексацию сайта только для одного робота
Код:

User-agent: BadBot
Disallow: /

Разрешить индексацию сайта одному роботу и запретить всем остальным
Код:

User-agent: Yandex
Disallow:

User-agent: *
Disallow: /

Полезные ссылки

FeraS 09.01.2008 02:08

Частые ошибки

Перепутанные инструкции
Неправильно:
Код:

User-agent: /
Disallow: Yandex

Правильно:
Код:

User-agent: Yandex
Disallow: /

Несколько каталогов в одной инструкции Disallow
Нельзя:
Код:

Disallow: /css/ /cgi-bin/ /images/
Запись, нарушающая стандарт, угадать, как ее обработают разные роботы невозможно.
Некоторые просто отбросят пробелы и интерпретируют как:
Код:

Disallow: /css/cgi-bin/images/
Кто-то может просто отбросить эту инструкцию.

Правильно писать так:
Код:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

Имя файла написано неправильно
Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT и уж никак не robot.txt

Пустая строка в User-agent
Неправильно:
Код:

User-agent:
Disallow:

Правильно:
Код:

User-agent: *
Disallow:

URL в директиве Host
URL необходимо писать без префикса http:// и без закрывающего слеша /

Неправильно:
Код:

User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.aeweb.ru/

Правильно:
Код:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.aeweb.ru

Эта директива корректна только для роботов Яндекса

Символы подстановки в Disallow
Нельзя:
Код:

User-agent: *
Disallow: file*.html

Хотя некоторые роботы ее поддерживают
http://www.google.ru/support/webmast...367&topic=8846


Время: 16:43