
13.12.2009, 14:51
|
|
Постоянный
Регистрация: 12.06.2008
Сообщений: 654
С нами:
9427413
Репутация:
973
|
|
Сообщение от [Dezzter]
PHP код:
import re
import urllib2
url = urllib2.urlopen('http://site.ru/test.php')
url=url.read()
match=re.findall('<!-- test -->[ \r\t].*?<!-- test2 -->', url)
match=str(match)[2:-2]
print match
Проблема вот в чём, если HTML страница вот такого вида:
Код HTML:
<!-- test --> Сдесь какой-то текст <!-- test2-->
То всё парсится отлично, а вот если уже вот такого:
Код HTML:
<br><br><br>
<center> Первая строка </center>
<center> Вторая строка </center>
<!-- test -->
<br>
<center> Пляске </center>
<br>
<!-- test2 -->
<center> Третья строка </center>
<center> Четвёртая строка </center>
Тогда ни чего не парсится
Я так понял, что re.findall парсит только строку.. а у меня во втором примере, нужно уже спарсить несколько строк
Как решить эту проблему? Чёт питоновскую документацию полистал и не смог сам раздуплиться =/
re.DOTALL, re.MULTILINE
Но будет проц грузить...
|
|
|