
13.12.2009, 12:55
|
|
Участник форума
Регистрация: 26.11.2007
Сообщений: 266
Провел на форуме: 3412198
Репутация:
341
|
|
PHP код:
import re
import urllib2
url = urllib2.urlopen('http://site.ru/test.php')
url=url.read()
match=re.findall('<!-- test -->[ \r\t].*?<!-- test2 -->', url)
match=str(match)[2:-2]
print match
Проблема вот в чём, если HTML страница вот такого вида:
Код HTML:
<!-- test --> Сдесь какой-то текст <!-- test2-->
То всё парсится отлично, а вот если уже вот такого:
Код HTML:
<br><br><br>
<center> Первая строка </center>
<center> Вторая строка </center>
<!-- test -->
<br>
<center> Пляске </center>
<br>
<!-- test2 -->
<center> Третья строка </center>
<center> Четвёртая строка </center>
Тогда ни чего не парсится
Я так понял, что re.findall парсит только строку.. а у меня во втором примере, нужно уже спарсить несколько строк
Как решить эту проблему? Чёт питоновскую документацию полистал и не смог сам раздуплиться =/
|
|
|