Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   PHP, PERL, MySQL, JavaScript (https://forum.antichat.xyz/forumdisplay.php?f=37)
-   -   Скрипт парсер. (https://forum.antichat.xyz/showthread.php?t=103423)

mmda 28.01.2009 03:33

Скрипт парсер.
 
Нужен парсер, что бы из http://сайт.com/administrator/components/com_extcalendar/

Получилось сайт.com,тоесть оставлял только домен а всё остальное после него удалял.

159932 28.01.2009 03:58

preg_match('#[a-z]{1,}\.[a-z\.]{1,}#i',$url);
ну или
preg_match('#http:\/\/(.*?)\/#i',$url);
ну вариантов многовато..

mmda 28.01.2009 04:13

:) можеш катануть на перле или пхп?

159932 28.01.2009 04:19

<?php
$text = file_get_contents('a.txt');
preg_match_all('#http:\/\/(.*?)\/#i',$text,$urls);
foreach($urls[1] as $fuk) echo $fuk."\n";
?>

mmda 28.01.2009 04:35

Парсит домены, но выводит список такого вида, www.сайт.hk www.сайт.com www.сайт.com
В одной строке.Нужно чтобы каждый домен на отдельной строке был.

159932 28.01.2009 04:38

однако глянь сурс чтоли браузера чтоле.
или поменяй echo $fuk."\n"; на echo $fuk."<br>";

De-visible 28.01.2009 04:46

PHP код:

#  Link parser
#  Author: De-visible
#  ICQ#:223333575
#  Mega - Script
import re

file_name 
"text.txt"
out_file "out.txt"
= []

with open(file_name) as txt:
    
with open(out_file,'w') as outf:
        for 
line in txt:
            
outf.write(str(re.findall(r'http:\/\/(.*?)\/',line))[2:-2]+"\n")
        print 
"completed" 


mmda 28.01.2009 05:05

Спасибо огромное ;)

De-visible 28.01.2009 05:08

Скрипт на Python написан, если что:)

diehard 28.01.2009 06:18

кагбе мануал читайте иногда

PHP: parse_url()


Время: 04:12