
26.11.2008, 20:23
|
|
Участник форума
Регистрация: 24.11.2008
Сообщений: 205
Провел на форуме: 1123418
Репутация:
362
|
|
на, держи
Код:
#Обьявление необходимых модулей
use warnings;
use LWP 5.64;
use encoding "cp1251";
#Создаем "броузер" и обьявляем переменные
$urlWnews='http://www.kinopoisk.ru/level/2/page/';
$newsview='http://www.kinopoisk.ru/level/2/news/';
$numbOnpage=5;
$parsWpage=2;
$browser = LWP::UserAgent->new;
$browser->agent('Mozilla/4.76 [en] (Win98; U)');
#Узнаем номер новостей на каждой странице
$sr=1;$i=0;
while($parsWpage > $sr){
$urlWnews="http://www.kinopoisk.ru/level/2/page/" . "$sr";
print "Parsim $urlWnews\n";
while($numbOnpage > $i) {
$response=$browser->get($urlWnews) or die ("DIE!");
$response=$response->as_string;
@ms=$response=~m/<a href="\/level\/2\/news\/(.*)\/" class="continue">/ig;
print $ms[$i] . "\n";
$i++;
}
$i=0;
$sr++;
}
#Самый чоткий момент, вытаскиваем новости! #Помочь тут :))
$i=0;$max=$#ms;
while($max > $i){
$newsview_temp = $newsview . $ms[$i];
#^^^^^^^бага воз хир!!
$response=$browser->get($newsview_temp) or die ("DIE!");
$response=$response->as_string;
@titl=$response=~m/<title>(.*)<\/title>/i;
@text=$response=~m/<td style="padding-top:10px;padding-bottom:20px" colspan=2 class="news">(.*?)<td>/is; # ВОт тут не получается
#^^^^^^^анд хир
#::какбэ trim
$text[0] =~ s/^\s*(.*?)\s*$/$1/s;
open(FF,">$titl[0].txt");
#^^^^^^^анд хир
print FF $text[0];
#^^^^^^^анд хир
close(FF);
$i++;
#^^^^^^^анд хир;)
}
с именами файлов фигня, предлогаю как имя файла использовать айди.
|
|
|