PDA

Просмотр полной версии : помощь с граблями


XopoIII
28.07.2008, 04:56
вобщем нужно грабить множество страничек, проблема в том что странички иногда меняют поддомены, но остальное не меняется, пробовал так решить проблему, но что то не получается.

$host=0;
$hosts = array("a", "b", "c");
$ss = $hosts[$host];

$uid =str_replace("http://","",$uid);
$uid =str_replace("www.","",$uid);
$uid =str_replace("a.test.ru/","",$uid);
$uid =str_replace("b.test.ru/","",$uid);
$uid =str_replace("c.test.ru/","",$uid);
$uid =str_replace(" ","+",$uid);

$fp = fsockopen("$ss.test.ru", 80, $errno, $errstr, 30);
if (!$fp) {
return $host+1;
} else {
$out ="GET /$filename HTTP/1.1\r\n";
$out.="Accept: */*\r\n";
$out.="Host: $ss.test.ru\r\n";
$out.="Accept-Language: ru\r\n";
$out.="User-Agent: Mozilla/5.0 (compatible; NavyBS 7.01; OS X)\r\n";
$out.="Proxy-Connection: Keep-Alive\r\n";
$out.="Connection: close\r\n\r\n";
fwrite($fp, $out);

$tmp = "";
for ($i=0; $i<3; $i++) $tmp .= fgets($fp, 128);
$file = file_get_contents("http://$ss.test.ru/".$tmp);
}

-=Static=-
28.07.2008, 05:03
Я чет понять не могу в чем проблема...(( Выложи полностью код..а то тут чет както нехватает много...Или опиши подробнее цель

t0tal
28.07.2008, 05:42
Поищи в полезных скриптах скрипт для сбора всех ссылок с сайта. Также поищи про многопоточность темы, пригодится при большом количестве страниц.

XopoIII
28.07.2008, 06:48
у меня выдает вот такую вот херню

Warning: file_get_contents(http://a.test.ru/HTTP/1.0 200 OK Date: Mon, 28 Jul 2008 02:46:03 GMT Server: Apache/2.0.49 (Linux/SuSE) )
[function.file-get-contents]: failed to open stream:
HTTP request failed! HTTP/1.0 404 Not Found in


в этой строке

$file = file_get_contents("http://$ss.test.ru/".$tmp);

XopoIII
28.07.2008, 09:24
вобщем не знаю почему но косяк был в

$tmp = "";
for ($i=0; $i<3; $i++) $tmp .= fgets($fp, 128);

удалил, заменил на

$tmp = "info.html?user=".$uid;

и получилось=)