HOME FORUMS MEMBERS RECENT POSTS LOG IN  
× Авторизация
Имя пользователя:
Пароль:
Нет аккаунта? Регистрация
Баннер 1   Баннер 2
НОВЫЕ ТОРГОВАЯ НОВОСТИ ЧАТ
loading...
Скрыть
Вернуться   ANTICHAT > БЕЗОПАСНОСТЬ И УЯЗВИМОСТИ > Безопасность и Анонимность > Анонимность
   
Ответ
 
Опции темы Поиск в этой теме Опции просмотра

парсер проксей GooglePPbP
  #1  
Старый 02.11.2009, 00:57
phpdreamer
Постоянный
Регистрация: 26.07.2009
Сообщений: 321
С нами: 8838619

Репутация: 123
По умолчанию парсер проксей GooglePPbP

Написал скрипт, который парсит прокси из инета.

вариант1
даем ему файл со списком сайтов, где выкладывают прокси, срипт лазит по ним (с глубиной 1 ссылка) и собирает все прокси.
Так можно базу сайта в 3000 проксей стянуть за секунды, а не копипастить и удалять лишнюю инфу для каждого айпишника...

вариант2
у нас нету никакого списка с сайтами и нам лень их искать в гугле.
Тогда скрипт это делает за нас. Пробивает в гугле запрос ака proxy и берет первые 20000 страниц. Потом ходит по ним и собирает прокси как это описано в первом случае.
Последний тест скрипта этим методом длился больше 2 часов и принес список в 22 993 не завершив свою работу до конца (я прервал чтоб не ждать дальше, так как больше проксей просто теоритически не может быть нужно - их же прочекать еще надо)

Все настройки легко меняются в первых строках кода.
Код хорошо прокомментирован.
В архиве есть FAQ и схема работы, а также чекер проксей на PHP.

вот скрин:


настройки, как видно по скрину, выводятся в админку.
ошибки обрабатываются, после завершения работы скрипта видим ссылку на файл с проксями.

проверка повторов отсутствует
так как большинство чекеров уберают повторы сами.

Скачать версию 1.0
http://d.lsass.us/4280
 
Ответить с цитированием

  #2  
Старый 02.11.2009, 01:00
CrazyStudentS_Mi}{
Постоянный
Регистрация: 04.07.2007
Сообщений: 827
С нами: 9923367

Репутация: 882


По умолчанию

делай фри приват сервис для античата
 
Ответить с цитированием

  #3  
Старый 02.11.2009, 11:19
phpdreamer
Постоянный
Регистрация: 26.07.2009
Сообщений: 321
С нами: 8838619

Репутация: 123
По умолчанию

ну разве что на вашем серваке xDD
 
Ответить с цитированием

  #4  
Старый 02.11.2009, 11:35
Cthulchu
Познавший АНТИЧАТ
Регистрация: 22.11.2007
Сообщений: 1,822
С нами: 9720289

Репутация: 1549


По умолчанию

проверку от повторов обязательно нужно реализовать, ибо.
на счет глубины поиска - не верю, что 2000 - реально ибо слишком огромные нагрузки, скорее уж 5, если действительно реализовано.
Естественно, неплохо туда же вмонтировать чекер проксей со всеми подробностями и парсерок, способный универсально их обрабатывать...
Правда, такую штуку уже можно будет продавать за бабло и ставить на ней привязочку.
 
Ответить с цитированием

  #5  
Старый 02.11.2009, 14:58
phpdreamer
Постоянный
Регистрация: 26.07.2009
Сообщений: 321
С нами: 8838619

Репутация: 123
По умолчанию

набросал на ходу...
Если добавит в код строку
PHP код:
foreach(array_unique(file($file_proxy)) as $numb=>$valuee)echo $valuee "<br>"
после
fclose($log);
и после
fclose($save);

то после завершения работы скрипта уникальные прокси выведутся в браузер.


на счет глубины поиска, какую хотите, такую и ставьте в настройках. глубина 5 - это минуты на две работы. Эта настойка означает не хождение по подкаталогам и ссылкам, а колличество обрабатываемых страниц из тех, которые найдет гугл. А по тем страницам углубляемся в подкаталоги только один раз. Этого достаточно с головой.

чекер проксей от енота в архиве. Одновременно чекать и парсить сервак не выдержит ) так что потратьте часик на парсинг и потом хоть 2 суток чекайте.

Я видел что продают, а я даю на халяву.
 
Ответить с цитированием

  #6  
Старый 02.11.2009, 16:20
Vlad3d
Участник форума
Регистрация: 18.01.2008
Сообщений: 158
С нами: 9637731

Репутация: 106
По умолчанию

не работает ((
 
Ответить с цитированием

все работает
  #7  
Старый 02.11.2009, 16:42
phpdreamer
Постоянный
Регистрация: 26.07.2009
Сообщений: 321
С нами: 8838619

Репутация: 123
По умолчанию все работает

для работы нужен пхп5 и включеная ф-я curl

скопипасти ошибку которую возвращает сервер
 
Ответить с цитированием

  #8  
Старый 02.11.2009, 16:43
Vlad3d
Участник форума
Регистрация: 18.01.2008
Сообщений: 158
С нами: 9637731

Репутация: 106
По умолчанию

Цитата:
для работы нужен пхп5 и включеная ф-я curl

скопипасти ошибку которую возвращает сервер
вообщем все как бы работает, жму допустим ок (тот который напротив собрать из google) и у меня через 5 сек пишет done, файл прокси1 пустой
 
Ответить с цитированием

  #9  
Старый 02.11.2009, 16:45
mailbrush
Познавший АНТИЧАТ
Регистрация: 24.06.2008
Сообщений: 1,996
С нами: 9410786

Репутация: 2731


По умолчанию

chmod
 
Ответить с цитированием

  #10  
Старый 02.11.2009, 21:47
shell_c0de
Reservists Of Antichat - Level 6
Регистрация: 07.07.2009
Сообщений: 324
С нами: 8866466

Репутация: 564
По умолчанию

Хорошая решение нудной работы [лови +]

P.S реально добавь чекер проксей, но после парсинга листа а не одновременно.
Работает идеально но дупликаты давольно много, + еще добавь сортировка по GeoIP)
 
Ответить с цитированием
Ответ



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
парсер дампов БД v.o2 eLWAux С/С++, C#, Rust, Swift, Go, Java, Perl, Ruby 15 07.09.2009 18:56
Парсер контента dough Разное - Покупка, продажа, обмен 0 20.08.2009 12:35
нужен парсер nmap last_root Разное - Покупка, продажа, обмен 1 22.07.2009 17:23
Небольшую тонкость сканировании проксей mandalina Анонимность 3 03.06.2009 12:30
Выбор прокси чекера + база открытых проксей gogison Анонимность 0 03.02.2007 02:57



Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT ™ © 2001- Antichat Kft.