![]() |
парсер проксей GooglePPbP
Написал скрипт, который парсит прокси из инета.
вариант1 даем ему файл со списком сайтов, где выкладывают прокси, срипт лазит по ним (с глубиной 1 ссылка) и собирает все прокси. Так можно базу сайта в 3000 проксей стянуть за секунды, а не копипастить и удалять лишнюю инфу для каждого айпишника... вариант2 у нас нету никакого списка с сайтами и нам лень их искать в гугле. Тогда скрипт это делает за нас. Пробивает в гугле запрос ака proxy и берет первые 20000 страниц. Потом ходит по ним и собирает прокси как это описано в первом случае. Последний тест скрипта этим методом длился больше 2 часов и принес список в 22 993 не завершив свою работу до конца (я прервал чтоб не ждать дальше, так как больше проксей просто теоритически не может быть нужно - их же прочекать еще надо) Все настройки легко меняются в первых строках кода. Код хорошо прокомментирован. В архиве есть FAQ и схема работы, а также чекер проксей на PHP. вот скрин: http://s48.radikal.ru/i122/0911/99/818829255499.jpg настройки, как видно по скрину, выводятся в админку. ошибки обрабатываются, после завершения работы скрипта видим ссылку на файл с проксями. проверка повторов отсутствует так как большинство чекеров уберают повторы сами. Скачать версию 1.0 http://d.lsass.us/4280 |
делай фри приват сервис для античата :)
|
ну разве что на вашем серваке xDD
|
проверку от повторов обязательно нужно реализовать, ибо.
на счет глубины поиска - не верю, что 2000 - реально ибо слишком огромные нагрузки, скорее уж 5, если действительно реализовано. Естественно, неплохо туда же вмонтировать чекер проксей со всеми подробностями и парсерок, способный универсально их обрабатывать... Правда, такую штуку уже можно будет продавать за бабло и ставить на ней привязочку. |
набросал на ходу...
Если добавит в код строку PHP код:
fclose($log); и после fclose($save); то после завершения работы скрипта уникальные прокси выведутся в браузер. на счет глубины поиска, какую хотите, такую и ставьте в настройках. глубина 5 - это минуты на две работы. Эта настойка означает не хождение по подкаталогам и ссылкам, а колличество обрабатываемых страниц из тех, которые найдет гугл. А по тем страницам углубляемся в подкаталоги только один раз. Этого достаточно с головой. чекер проксей от енота в архиве. Одновременно чекать и парсить сервак не выдержит ) так что потратьте часик на парсинг и потом хоть 2 суток чекайте. Я видел что продают, а я даю на халяву. |
не работает ((
|
все работает
для работы нужен пхп5 и включеная ф-я curl
скопипасти ошибку которую возвращает сервер |
Цитата:
|
chmod
|
Хорошая решение нудной работы [лови +]
P.S реально добавь чекер проксей, но после парсинга листа а не одновременно. Работает идеально но дупликаты давольно много, + еще добавь сортировка по GeoIP) |
| Время: 05:56 |