PDA

Просмотр полной версии : парсер проксей GooglePPbP


phpdreamer
02.11.2009, 00:57
Написал скрипт, который парсит прокси из инета.

вариант1
даем ему файл со списком сайтов, где выкладывают прокси, срипт лазит по ним (с глубиной 1 ссылка) и собирает все прокси.
Так можно базу сайта в 3000 проксей стянуть за секунды, а не копипастить и удалять лишнюю инфу для каждого айпишника...

вариант2
у нас нету никакого списка с сайтами и нам лень их искать в гугле.
Тогда скрипт это делает за нас. Пробивает в гугле запрос ака proxy и берет первые 20000 страниц. Потом ходит по ним и собирает прокси как это описано в первом случае.
Последний тест скрипта этим методом длился больше 2 часов и принес список в 22 993 не завершив свою работу до конца (я прервал чтоб не ждать дальше, так как больше проксей просто теоритически не может быть нужно - их же прочекать еще надо)

Все настройки легко меняются в первых строках кода.
Код хорошо прокомментирован.
В архиве есть FAQ и схема работы, а также чекер проксей на PHP.

вот скрин:
http://s48.radikal.ru/i122/0911/99/818829255499.jpg

настройки, как видно по скрину, выводятся в админку.
ошибки обрабатываются, после завершения работы скрипта видим ссылку на файл с проксями.

проверка повторов отсутствует
так как большинство чекеров уберают повторы сами.

Скачать версию 1.0
http://d.lsass.us/4280

CrazyStudentS_Mi}{
02.11.2009, 01:00
делай фри приват сервис для античата :)

phpdreamer
02.11.2009, 11:19
ну разве что на вашем серваке xDD

Cthulchu
02.11.2009, 11:35
проверку от повторов обязательно нужно реализовать, ибо.
на счет глубины поиска - не верю, что 2000 - реально ибо слишком огромные нагрузки, скорее уж 5, если действительно реализовано.
Естественно, неплохо туда же вмонтировать чекер проксей со всеми подробностями и парсерок, способный универсально их обрабатывать...
Правда, такую штуку уже можно будет продавать за бабло и ставить на ней привязочку.

phpdreamer
02.11.2009, 14:58
набросал на ходу...
Если добавит в код строку
foreach(array_unique(file($file_proxy)) as $numb=>$valuee)echo $valuee . "<br>";
после
fclose($log);
и после
fclose($save);

то после завершения работы скрипта уникальные прокси выведутся в браузер.


на счет глубины поиска, какую хотите, такую и ставьте в настройках. глубина 5 - это минуты на две работы. Эта настойка означает не хождение по подкаталогам и ссылкам, а колличество обрабатываемых страниц из тех, которые найдет гугл. А по тем страницам углубляемся в подкаталоги только один раз. Этого достаточно с головой.

чекер проксей от енота в архиве. Одновременно чекать и парсить сервак не выдержит ) так что потратьте часик на парсинг и потом хоть 2 суток чекайте.

Я видел что продают, а я даю на халяву.

Vlad3d
02.11.2009, 16:20
не работает ((

phpdreamer
02.11.2009, 16:42
для работы нужен пхп5 и включеная ф-я curl

скопипасти ошибку которую возвращает сервер

Vlad3d
02.11.2009, 16:43
для работы нужен пхп5 и включеная ф-я curl

скопипасти ошибку которую возвращает сервер
вообщем все как бы работает, жму допустим ок (тот который напротив собрать из google) и у меня через 5 сек пишет done, файл прокси1 пустой

mailbrush
02.11.2009, 16:45
chmod

shell_c0de
02.11.2009, 21:47
Хорошая решение нудной работы [лови +]

P.S реально добавь чекер проксей, но после парсинга листа а не одновременно.
Работает идеально но дупликаты давольно много, + еще добавь сортировка по GeoIP)

phpdreamer
06.11.2009, 17:23
написал же, есть там чекер
просто он другим файлом

chesheer
07.11.2009, 07:16
как раз скрипт пригодился. лови +