PDA

Просмотр полной версии : Скрипт парсер.


mmda
28.01.2009, 03:33
Нужен парсер, что бы из http://сайт.com/administrator/components/com_extcalendar/

Получилось сайт.com,тоесть оставлял только домен а всё остальное после него удалял.

159932
28.01.2009, 03:58
preg_match('#[a-z]{1,}\.[a-z\.]{1,}#i',$url);
ну или
preg_match('#http:\/\/(.*?)\/#i',$url);
ну вариантов многовато..

mmda
28.01.2009, 04:13
:) можеш катануть на перле или пхп?

159932
28.01.2009, 04:19
<?php
$text = file_get_contents('a.txt');
preg_match_all('#http:\/\/(.*?)\/#i',$text,$urls);
foreach($urls[1] as $fuk) echo $fuk."\n";
?>

mmda
28.01.2009, 04:35
Парсит домены, но выводит список такого вида, www.сайт.hk www.сайт.com www.сайт.com
В одной строке.Нужно чтобы каждый домен на отдельной строке был.

159932
28.01.2009, 04:38
однако глянь сурс чтоли браузера чтоле.
или поменяй echo $fuk."\n"; на echo $fuk."<br>";

De-visible
28.01.2009, 04:46
# Link parser
# Author: De-visible
# ICQ#:223333575
# Mega - Script
import re

file_name = "text.txt"
out_file = "out.txt"
x = []

with open(file_name) as txt:
with open(out_file,'w') as outf:
for line in txt:
outf.write(str(re.findall(r'http:\/\/(.*?)\/',line))[2:-2]+"\n")
print "completed"

mmda
28.01.2009, 05:05
Спасибо огромное ;)

De-visible
28.01.2009, 05:08
Скрипт на Python написан, если что:)

diehard
28.01.2009, 06:18
кагбе мануал читайте иногда

PHP: parse_url()