Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   Болталка (https://forum.antichat.xyz/forumdisplay.php?f=46)
-   -   кто напишет парсер этой темы: http://forum.antichat.ru/thread83865.html (https://forum.antichat.xyz/showthread.php?t=135608)

it's my 17.08.2009 19:45

кто напишет парсер этой темы: http://forum.antichat.ru/thread83865.html
 
кто напишет парсер этой темы: http://forum.antichat.ru/thread83865.html

соответственно нужно что бы вырезал только 32-х символьные слова т.е. только md5 хеши

что бы пробрутить полностью список, не охота возиться по одиночным хешам :(

кто возьмется?

it's my 17.08.2009 19:46

язык без разницы, крайне желательно php/perl

it's my 17.08.2009 19:48

и да если есть специальный раздел для подобной тему, перенесите что ли :(

ErrorNeo 17.08.2009 20:17

с тебя спасибо?

it's my 17.08.2009 20:18

а то )

cremator (c) 17.08.2009 20:29

Если делать без авторизации на сайте, то для прохода всех постов надо сделать около 260 запросов. Если с авторизацией и просмотром по 40 постов на стр., то около 60. Могу на Delphi написать, если надо.
А идея не плохая, кстати)

it's my 17.08.2009 20:34

сделай добро всем )

-Onotole- 17.08.2009 20:42

Идея отличная,поддерживаю :)

Kaimi 17.08.2009 21:05

Код:

use strict;
use warnings;
use LWP::UserAgent;
#Диапазон страниц
my $range = '1-261';
my $output = './hash.txt';

my $ua = new LWP::UserAgent;

my ($i, $j) = split /-/, $range;

for($i ; $i <= $j; $i++)
        {
        print "Parsing page $i\n";
        my $data = $ua->get('http://forum.antichat.ru/threadnav83865-'.$i.'-10.html')->content;
        my @list = ($data =~ /(\w{32})</g);
        if(@list)
                {
                print " Found ".@list." hashes\n";
                open F, '>>', $output;
                print F $_.$/ for @list;
                close F;
                }
        }


Pashkela 17.08.2009 21:11

PHP код:

<?php 
$start 
1;// Стартовая страница
$end 3;//Последняя страница
$pause 0;//пауза в секундах между каждой страницей
$result fopen('MD5.txt','w');
for (
$i=$start;$i<=$end;$i++) {
   
$a file_get_contents('http://forum.antichat.ru/threadnav83865-' $i '-10.html');
   
preg_match_all('|[a-z0-9]{32}|is',$a,$res[$i]);
   
$res[$i] = array_unique($res[$i][0]);
   
$b implode ("\r\n",$res[$i]);
   
fwrite ($result,$b "\r\n");
   
sleep($pause); 
}
fclose ($result);
echo 
"Done. Saved in MD5.txt";
?>

Только DDOS получиться какой-то:)


Время: 19:04