Скрипт парсер. [Архив] - Форум АНТИЧАТ

Просмотр полной версии : Скрипт парсер.

mmda

28.01.2009, 03:33

Нужен парсер, что бы из http://сайт.com/administrator/components/com_extcalendar/

Получилось сайт.com,тоесть оставлял только домен а всё остальное после него удалял.

159932

28.01.2009, 03:58

preg_match('#[a-z]{1,}\.[a-z\.]{1,}#i',$url);
ну или
preg_match('#http:\/\/(.*?)\/#i',$url);
ну вариантов многовато..

mmda

28.01.2009, 04:13

:) можеш катануть на перле или пхп?

159932

28.01.2009, 04:19

<?php
$text = file_get_contents('a.txt');
preg_match_all('#http:\/\/(.*?)\/#i',$text,$urls);
foreach($urls[1] as $fuk) echo $fuk."\n";
?>

mmda

28.01.2009, 04:35

Парсит домены, но выводит список такого вида, www.сайт.hk www.сайт.com www.сайт.com
В одной строке.Нужно чтобы каждый домен на отдельной строке был.

159932

28.01.2009, 04:38

однако глянь сурс чтоли браузера чтоле.
или поменяй echo $fuk."\n"; на echo $fuk."<br>";

De-visible

28.01.2009, 04:46

# Link parser
# Author: De-visible
# ICQ#:223333575
# Mega - Script
import re

file_name = "text.txt"
out_file = "out.txt"
x = []

with open(file_name) as txt:
with open(out_file,'w') as outf:
for line in txt:
outf.write(str(re.findall(r'http:\/\/(.*?)\/',line))[2:-2]+"\n")
print "completed"

mmda

28.01.2009, 05:05

Спасибо огромное ;)

De-visible

28.01.2009, 05:08

Скрипт на Python написан, если что:)

diehard

28.01.2009, 06:18

кагбе мануал читайте иногда

PHP: parse_url()