Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   PHP, PERL, MySQL, JavaScript (https://forum.antichat.xyz/forumdisplay.php?f=37)
-   -   Переборщик +вывод в файл (https://forum.antichat.xyz/showthread.php?t=49823)

Klaus Doring 25.09.2007 15:45

Переборщик +вывод в файл
 
Есть ссылка mysyte.com/1.html
Нужно вывести содержимое страниц, для каждой отдельный файл в которых есть что нибудь, то есть не выводится слово error
есть 999999 файлов. Можно как то это сделать? Может есть какой нибудь уже готовый скрипт на Перле например?

demonoid 25.09.2007 19:10

надеюсь я правильно понял

Код:

#!/usr/bin/perl -w

use LWP::Simple;
use strict;
use warnings;
 
use constant URL      => 'http://forum.antichat.ru/memberlist.php?s=&do=getall&page={PAGES}&sort=reputation&order=DESC&pp=50';
use constant MAX_PAGE => '4'; 
use constant FORMAT  => 'html';

#  Опции:
#  ~~~~~~
#  Отсортировать результат поиска по: Репутация | по убываиню
#  Число пользователей на страницу: 50

my $content = undef;
my $resp = undef;
my $url = URL;

for( 0..MAX_PAGE )
{
  $url  =~ s/{PAGES}/$_/e;
  print "[$_] GET $url \n";
  $content = get $url || exit printf "ERROR : get URL : %s \n",$url;
  open $resp, ">", "$_.".FORMAT; 
  print $resp $content;
  close( $resp );
  $url = URL;
}


Klaus Doring 26.09.2007 14:15

Что то не работает. Вроде задал параметр, который увеличиваться должен. Дело в том что там не html! И еще вывод в файл должен быть содержимого страниц.

demonoid 26.09.2007 16:38

Напиши на конкретном примере, что не работает

Код:

use constant FORMAT  => 'html'; #Это формат, в который будут сохраняться страницы
Цитата:

И еще вывод в файл должен быть содержимого страниц.
Так и есть :\\

Spyder 26.09.2007 16:57

Klaus Doring, хз, мб я глючу, но вот твой первый пост меня убил. Очень похоже на бессмысленный набор слов
Напиши нормально что тебе надо

Klaus Doring 26.09.2007 17:11

Ммм... как сделать. Отправляешь запрос, получаешь содержимое страницы, анализируешь его, сохраняешь если надо. Повторяешь 99999 раз.
Или на другом языке... :)
Цель:
Можно задавать адрес программе
Можно задавать увеличиваемый параметр в адресе
Можно фильтровать по слову, чтобы при Error404 не сохранялась страничка на диск
Можно сохранить все страницы от 1-99999.html


Время: 20:04