Один из самых противных видов ссылочного спама это рефспам. Это очень простая вещь: есть несколько известных бесплатных скриптов, которые показывают что-то вроде “последние сославшиеся страницы” или “топ30 реферралов”. Самые известные примеры это 2 скрипта статистики – Webalizer и Webstats, их в основном и спамят. Процесс спама состоит в многократном дёрганьи любой страницы сайта на котором установлен скрипт статистики, с нужным реферралом, чтобы ссылка появилась на странице статистики в топ30. Большинство сайтов где стоят такие скрипты, находятся по признакам гуглом, то есть известны спамерам, поэтому чтобы попасть в топ, нужно переспамить других спамеров, а это значит нужно серьёзно досить сайты со скриптом.

Технически рефспам делается на порядки легче чем спам в комментах или по гостевухам, основная проблема в этом деле – это как раз конкуренция между спамерами и постоянно уменьшающаяся база вебалайзеров. Какой вред может быть от этого?
Главный вред это бессмысленный расход трафа и лишняя нагрузка на сервер. Чтобы проспамить ссылку, спамеру вовсе не нужно загружать страницу целиком, достаточно послать запрос скажем на первые 100 байт, если сайт полностью динамический, то сервер при этом нагрузится точно также, как при генерации целой страницы. Например, какие-то мои сайты попали в базу одного настырного спамера, и он уже года 2 меня спамит, вот свежий сайтик, который был проспамлен сегодня: wildcreditcard.com. Сами сайты у этого спамера получаются лучше, чем спам, поскольку вебалайзера у меня разумеется нет и никогда не было.

А сайтики чем дальше, тем становятся затейливей, например там явно используется какая-то технология для переписывания контента, возможно также есть какой-то генератор шаблонов, потому что похожие но неидентичные сайты этот спамер запускает сотнями. Как защититься это такого спама? Я делаю так: если реф не пустой и сославшийся сайт неизвестнен скрипту, то я вызываю gethostbyname (с кешированием конечно) и если ип спамерский, то запрос дальше не обрабатывается, а реф попадает в спамлист доменов. Менее ресурсозатратного способа мне придумать не удалось, думаю что его и нету. К счастью, спамер не обладает большой базой доступных ip адресов для хостинга, поэтому новые ip появляются не так часто, видимо когда его выгоняет очередной хостер.
