phpdreamer
02.11.2009, 00:57
Написал скрипт, который парсит прокси из инета.
вариант1
даем ему файл со списком сайтов, где выкладывают прокси, срипт лазит по ним (с глубиной 1 ссылка) и собирает все прокси.
Так можно базу сайта в 3000 проксей стянуть за секунды, а не копипастить и удалять лишнюю инфу для каждого айпишника...
вариант2
у нас нету никакого списка с сайтами и нам лень их искать в гугле.
Тогда скрипт это делает за нас. Пробивает в гугле запрос ака proxy и берет первые 20000 страниц. Потом ходит по ним и собирает прокси как это описано в первом случае.
Последний тест скрипта этим методом длился больше 2 часов и принес список в 22 993 не завершив свою работу до конца (я прервал чтоб не ждать дальше, так как больше проксей просто теоритически не может быть нужно - их же прочекать еще надо)
Все настройки легко меняются в первых строках кода.
Код хорошо прокомментирован.
В архиве есть FAQ и схема работы, а также чекер проксей на PHP.
вот скрин:
http://s48.radikal.ru/i122/0911/99/818829255499.jpg
настройки, как видно по скрину, выводятся в админку.
ошибки обрабатываются, после завершения работы скрипта видим ссылку на файл с проксями.
проверка повторов отсутствует
так как большинство чекеров уберают повторы сами.
Скачать версию 1.0
http://d.lsass.us/4280
вариант1
даем ему файл со списком сайтов, где выкладывают прокси, срипт лазит по ним (с глубиной 1 ссылка) и собирает все прокси.
Так можно базу сайта в 3000 проксей стянуть за секунды, а не копипастить и удалять лишнюю инфу для каждого айпишника...
вариант2
у нас нету никакого списка с сайтами и нам лень их искать в гугле.
Тогда скрипт это делает за нас. Пробивает в гугле запрос ака proxy и берет первые 20000 страниц. Потом ходит по ним и собирает прокси как это описано в первом случае.
Последний тест скрипта этим методом длился больше 2 часов и принес список в 22 993 не завершив свою работу до конца (я прервал чтоб не ждать дальше, так как больше проксей просто теоритически не может быть нужно - их же прочекать еще надо)
Все настройки легко меняются в первых строках кода.
Код хорошо прокомментирован.
В архиве есть FAQ и схема работы, а также чекер проксей на PHP.
вот скрин:
http://s48.radikal.ru/i122/0911/99/818829255499.jpg
настройки, как видно по скрину, выводятся в админку.
ошибки обрабатываются, после завершения работы скрипта видим ссылку на файл с проксями.
проверка повторов отсутствует
так как большинство чекеров уберают повторы сами.
Скачать версию 1.0
http://d.lsass.us/4280