Antichat снова доступен.
Форум Antichat (Античат) возвращается и снова открыт для пользователей.
Здесь обсуждаются безопасность, программирование, технологии и многое другое.
Сообщество снова собирается вместе.
Новый адрес: forum.antichat.xyz
 |
|

20.05.2009, 01:40
|
|
Постоянный
Регистрация: 31.01.2008
Сообщений: 643
Провел на форуме: 6128108
Репутация:
445
|
|
Посоветуйте парсер гугла
Собственно сабж
В гугл шел
Но там некоторые оказались не рабочими, либо вообще ниче не поймешь (как парсить)
Вообщем какой парсер посоветуете? (на перл не предлогать!)
Последний раз редактировалось diznt; 20.05.2009 в 01:53..
|
|
|

20.05.2009, 02:16
|
|
Новичок
Регистрация: 02.03.2009
Сообщений: 18
Провел на форуме: 202124
Репутация:
4
|
|
попробуй лучше так
а дальше думаю разберешься
http://www.google.com/ie?q=&num=100&hl=ru&start=0&sa=N&filter=0
|
|
|

20.05.2009, 02:29
|
|
Постоянный
Регистрация: 31.01.2008
Сообщений: 643
Провел на форуме: 6128108
Репутация:
445
|
|
mss-s конечно + за линк, но мне парсер нужен (а твой линк просто выдает грубо говоря титлы с ссылкой на то что он нашол)
|
|
|

20.05.2009, 03:24
|
|
Постоянный
Регистрация: 30.09.2007
Сообщений: 815
Провел на форуме: 2590715
Репутация:
659
|
|
hrefer
|
|
|

20.05.2009, 15:10
|
|
Постоянный
Регистрация: 31.01.2008
Сообщений: 643
Провел на форуме: 6128108
Репутация:
445
|
|
diehard не то, нужна без проксевая (я знаю что так долго будет без прокси собирать)
|
|
|

20.05.2009, 15:27
|
|
Участник форума
Регистрация: 26.10.2007
Сообщений: 283
Провел на форуме: 2605910
Репутация:
212
|
|
ниипаняятно ты сформулировал, афтор
вот например неплохая связка:
http://www.google.com/ie?q=&num=100&hl=ru&start=0&sa=N&filter=0
+
http://webdos.freezoka.com/files/htmllerz.zip (прога из архива может вырезать "от сих до сих")
|
|
|

20.05.2009, 15:33
|
|
Постоянный
Регистрация: 31.01.2008
Сообщений: 643
Провел на форуме: 6128108
Репутация:
445
|
|
devton тоже не то, вообще бред какой то, если я прально понял то нужно для этой проги самому собирать определенные куски страницы и туда пихать
|
|
|

20.05.2009, 15:40
|
|
Постоянный
Регистрация: 11.03.2008
Сообщений: 347
Провел на форуме: 2075230
Репутация:
462
|
|
URL dumper
а так?
Код:
<form method=GET>
<input type=text name=q value="">
<input type=submit name=submit value="Поиск">
</form>
<?php
If(isset($_GET['q']))
{
$s=file_get_contents("http://www.google.com/search?q=".$_GET['q']."&num=100");
$preg='#\"(http://)[a-z\.]+\/*[\S]+\"#';
$p=preg_match_all($preg,$s,$ar,PREG_SET_ORDER); ;
for($i=0;$i<$p-1;$i++)
{
If(!strchr($ar[$i][0],"google"))
{
$ar[$i][0]=str_replace('"',"",$ar[$i][0]);
echo $ar[$i][0]."<br>";
}
}
}
?>
или перловый. только на сокетах
Код:
#! /usr/bin/perl
# ===::: google parser v0.8 :::===
# (c)oded by drmist\STNC
# www.security-teams.net
use IO::Socket::INET;
$server = "google.com";
$port = 80;
$count = 0;
$search = "";
@found = ();
@dn = ();
if((@ARGV < 2)||(@ARGV > 8)||(@ARGV % 2 > 0)) { usage(); exit; }
$i = 0;
while($i < @ARGV)
{
if($ARGV[$i] eq "-s"){ $server = $ARGV[$i+1]; }
elsif($ARGV[$i] eq "-p"){ $port = $ARGV[$i+1]; }
elsif($ARGV[$i] eq "-r"){ $search = $ARGV[$i+1]; }
elsif($ARGV[$i] eq "-n"){ $count = $ARGV[$i+1]; }
else { print "Invalid key: ".$ARGV[$i]."\n"; exit; }
$i += 2;
}
if($search eq ""){ usage(); exit; }
$search =~ s/(.)/sprintf("%%%02x",ord($1))/eg;
if($server !~ /:[0-9]{2,5}$/){$server.=":$port";}
for($i = 0; $i < 10; $i++)
{
@temp = get_request($server,"search?filter=0&num=100&start=".$i.
"00&q=$search") =~ /(https?\:\/\/[a-z0-9\.\-\/\?\:\&\%\=\_]{5,})/gi;
$a = 0;
foreach $url (@temp)
{
if($url =~ /https?\:\/\/[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\/search\?q=cache:/i){ next; }
($domain) = $url =~ /^https?\:\/\/([a-z0-9\.\-]{5,})/i;
$f=0;foreach(@dn){if($_ eq $domain){$f++;last;}}if($f){next;}
push(@found, $url);
if($count){if(!--$count){$a++;last;}}
push(@dn,$domain);
}
if($a){last;}
}
foreach(@found){print "$_\n";}
sub get_request()
{
local $sock;
local $data = "";
local($server, $url) = ($_[0], $_[1]);
$sock = IO::Socket::INET->new($server) or return -2; # connection failed
print $sock "GET /$url HTTP/1.0\r\n\r\n";
while(<$sock>){$data .= $_;}
close $sock;
return $data;
}
sub usage()
{
print qq(
drmist's google parser v 0.8
usage: gparse.pl [-s <server>] [-p <port>] -r <request> [-n <number>]
<server> google server, default: google.com
<port> http-server port, default: 80
<requets> search request
<number> number of links, that will be shown, default: all
examples:
perl gparse.pl -r 'filetype:php inurl:page=' | grep page=
perl gparse.pl -s google.ru:80 -r 'Powered by phpbb' -n 10
perl gparse.pl -s google.ru -p 80 -r 'site:com inurl:backup.sql'
perl gparse.pl -s google.de -r 'inurl:seite=' -n 400
for more information visit www.security-teams.net
);
}
|
|
|

20.05.2009, 15:57
|
|
Постоянный
Регистрация: 31.01.2008
Сообщений: 643
Провел на форуме: 6128108
Репутация:
445
|
|
ВОт что пишет Parse error: syntax error, unexpected '<' in /home/freehost/t35.com/s/e/sex-for-you/2.php on line 2
И во вторых я же говорил что НЕ НУЖНЫ ПЕРЛ СКРИПТЫ!
|
|
|

20.05.2009, 20:36
|
|
Постоянный
Регистрация: 30.09.2007
Сообщений: 815
Провел на форуме: 2590715
Репутация:
659
|
|
Сообщение от diznt
diehard не то, нужна без проксевая (я знаю что так долго будет без прокси собирать)
можешь отрубить прокси, если нужно без проксей.
|
|
|
|
 |
|
|
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
|
|
|
|