![]() |
Собираем спам базу с http://otvet.mail.ru/
Кодеры с mail.ru грешат выставляя напоказ мыла пользователей. Их можно собрать с сервера ответов.
Для начала я написал универсальный сборщик мыл по url'ам ему подаёшь файл с проксями, файл с url, выходной файл. Код:
#!/usr/bin/perlЦитата:
Цитата:
./script.pl -p ./proxy.txt -t 0.3 -i ./urls.txt > ./trash.txt - запускаем sort -u ./trash.txt - получаем уникальные отсортированные |
PS на перле многопоточные приложения писать не удобно.
Чиво? Если не умеешь - так и скажи, а не хуиту какую-то неси. |
зачем так сложно? тут вроде бы все описывалось
http://forum.antichat.ru/thread167280.html - весь код можно было уместить в одной регулярке |
а не заберёт ли эта регулярка текст введёный пользователями?
PS. Собственно это будет полезный текст PS. Сменил регулярку PS да собственно и код то сам в регулярке |
как можно кодить , незная что такое регулярка?
http://forum.antichat.ru/showpost.php?p=1792606&postcount=2 там пример работы скрипта,(на ответах майлру) ну а сама регулярка preg_match_all('/[\.\-_A-Za-z0-9]+?@[\.\-A-Za-z0-9]+?[\.A-Za-z0-9]{2,}/', $text, $out); Собирает ТОЛЬКО емайлы с заданной страници(причем в любом их виде), ну а еслиб мне потребовалось собирать и ответы я бы составил регулярку которая б выдергивала и их P.S. Большая просьба- если выкладываете не свой софт, скрипт то указывайте источник . навеянно Цитата:
|
Цитата:
Заюзать shift для прокси и для номер страниц. Потом запустить потоки в цикле. Очень трудно. Статья ниочем, приведенный код - какашка. |
щас всё подругому
to Wildsman: не сильно по ресурсам различаются многопоточное приложение и приложение размноженное через fork/exec если там нет взаимосвязи между потоками. Kusto: она собирает из сети. а не со страницы |
| Время: 00:19 |