PDA

Просмотр полной версии : Парсер фейка..


neofoks
18.02.2009, 18:41
Кто как чистит фейки от одинаковых/бредовых строк?

P.S. Не подходит вариант руками.

login999
18.02.2009, 18:46
Пиши парсер, либо если хочешь, то я напишу на Python за пиво :)

satana8920
18.02.2009, 18:55
dupkill + Notepad + ручки :)

eXmasteR
18.02.2009, 20:34
Это для удаления бредовых строк:

<?php
$input="vkfile.txt"; //входной файл
$output="vkfile-pars.txt"; //выходной файл
$out=fopen($output,"w+");
$f=fopen($input,"r");
while (!feof($f))
{
$st=fgets($f,256);
if((strpos($st, "@")>0)&&(strpos($st, ":")!=(strlen($st)-3))) fputs($out,$st);
}
fclose($out);
fclose($f);
echo "Программа успешно завершила работу.Счастливого нового года!";
?>


а для удаления повторов советую http://www.softforfree.com/programs/text_duplicate_killer-11932.html

neofoks
18.02.2009, 22:18
eXmasteR, Спасибо!

>.:!FrE!:.<
19.02.2009, 00:10
Это для удаления бредовых строк:

<?php
$input="vkfile.txt"; //входной файл
$output="vkfile-pars.txt"; //выходной файл
$out=fopen($output,"w+");
$f=fopen($input,"r");
while (!feof($f))
{
$st=fgets($f,256);
if((strpos($st, "@")>0)&&(strpos($st, ":")!=(strlen($st)-3))) fputs($out,$st);
}
fclose($out);
fclose($f);
echo "Программа успешно завершила работу.Счастливого нового года!";
?>


а для удаления повторов советую http://www.softforfree.com/programs/text_duplicate_killer-11932.html

Два в одном :D

<table>
<tr>
<td valign=top><form method="post">
<TEXTAREA NAME=mails ROWS=30 COLS=50></TEXTAREA>
<br/><input type="submit">
</form>
<td nowarp>
<?
if (isset($_POST['mails']))
{
$mails=strtolower($_POST['mails']);
preg_match_all('~[a-zA-Z0-9\.\_\-]+@[a-zA-Z0-9\_\-]+\.[a-zA-Z]{2,5}:(.*)~i',$mails,$result);
echo join('<br/>',array_unique(
array_map('htmlspecialchars',$result[0])));
}
?>
</table>