Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   Болталка (https://forum.antichat.xyz/forumdisplay.php?f=46)
-   -   База bash.org.ru (https://forum.antichat.xyz/showthread.php?t=46585)

slesh 12.08.2007 14:55

База bash.org.ru
 
Вот сидим как то с другом. Делать нечего. Ну и решили спарсить башорг. Написали простенький скрипт(скачка страниц + парочку регулярных выражений) В этоге через пару минут получили всю базу башорга. А именно - 10455 цитат.

Кому нужно качать от сюда:
http://slil.ru/24727778

Feshh 12.08.2007 15:04

на рапиду плиз залей

n1†R0x 12.08.2007 15:20

http://rapidshare.com/files/48507182/base.rar.html

ultimatum 12.08.2007 15:26

можно книгу писать.Автор ачат )))

iRedX 12.08.2007 17:22

Респект топикстартеру! Читают все, додумался сдампить только он! Пишите оболочку к базе и в релизы Античата!

nerezus 12.08.2007 18:36

Цитата:

Читают все, додумался сдампить только он!
Остальным это просто не надо )

ArdeOS 12.08.2007 18:41

Цитата:

Остальным это просто не надо )
+1

TERYS 12.08.2007 18:54

на webfile.ru может кто-то перезалить?

NOmeR1 12.08.2007 19:09

http://file4.webfile.ru/1495155/[webfile.ru]_base.html

Автору респект :)

helat 12.08.2007 23:50

дай скрипт

slesh 18.08.2007 00:06

Сори за долгий offline проблемы с инетом.
Кому нужен скрипт. вот он: Могут быть недочеты. т.к. всё исправлялось в скрипте который был в онлайне а не на компе.
PHP код:

<?
set_time_limit
(0);
ob_implicit_flush();
ini_set ('max_execution_time'"0");
ignore_user_abort(true);
error_reporting (E_ALL);
echo 
"<hr>STEP1<hr><br>\n";
$text="http://bash.org.ru/browse/";
if(@
$_GET['st']) $page_start=$_GET['st']; else $page_start=1;
if(@
$_GET['en']) $page_end=$_GET['en']; else $page_end=210;
$a=fopen("1.txt","w+");
echo 
"STOP PAGE = $page_end";
for(
$page=$page_start;$page<=$page_end;$page++)
{
$html=file_get_contents($text.$page);
fputs($a,$html);
echo 
"<br>Curent page = $page\n";
}
fclose($a);
echo 
"<br><hr>STEP2<hr><br>\n";

$out=array();
$a=fopen("base.txt","a+");
$html=file_get_contents("1.txt");
preg_match_all('|<div>(.*)</div>|U'$html$out);
for(
$i=0;$i<count($out[1]);$i++) 
{
 
fputs($a,$num."<hr><b>$i</b><br>".$out[1][$i]."\r\n"); 
}

fclose($a);
echo 
"Full Final<br><a heref='base.txt'>DOWNLOAD BASE</a>";

?>


bulbazaur 18.08.2007 00:32

ай эм ссори, бат как может быть 10к цитат, если последняя - 391409?

slesh 18.08.2007 15:10

я просто посмотрел что там 210 страниц которые они мне показывают. вот я и взял их.
Ты погляди в верх страницы там написано:
Утверждено: 10551

N3^x0r 31.10.2007 21:50

Там цитаты не сплошняком идут, есть пропуски номеров.

Lithium 31.10.2007 21:54

Да ты крут...Однако...


Время: 22:04