PDA

Просмотр полной версии : Умные парсеры


MafiaBoy3
10.11.2008, 09:15
Вообщем хочу написать парсер на php , которыйпарсит загруженную страницу вот по такому вот алгоритму:
1. найти в тексте все имена людей и
записать их в файл отдельно
2. найти в тексте все глаголы (Past simple tense) и также записать их в файл отдельно..


Вопрос: Это вообще реально ли?
Можно ли это как то будет ускорить?

-=lebed=-
10.11.2008, 10:12
Вообщем хочу написать парсер на php , которыйпарсит загруженную страницу вот по такому вот алгоритму:
1. найти в тексте все имена людей и
записать их в файл отдельно
2. найти в тексте все глаголы (Past simple tense) и также записать их в файл отдельно..


Вопрос: Это вообще реально ли?
Можно ли это как то будет ускорить?
Реально, если есть словарь глаголов и отдельно имён.
Если без словарей, анализировать где глагог, а где имя каким образом будешь? Попахивает лингвистическим анализатором, сам ты его сходу точно быстро не напишешь...

MafiaBoy3
10.11.2008, 11:12
спасибо а если этих самых имён и глаголов более 10.000 тыс. стоит ли?
И какова будет скорость?

-=lebed=-
10.11.2008, 11:21
спасибо а если этих самых имён и глаголов более 10.000 тыс. стоит ли?
И какова будет скорость?
Не знаю, но если заюзаешь регулярки, имхо, должно относительно быстро получиться...

MafiaBoy3
10.11.2008, 11:34
а как мне можно приучить паука чтобы он мог копировать страницы вконтакте в базу данных?

Вконтакте ведь запаролен

Chaak
10.11.2008, 11:40
в http запрос добавляй cookiesы контакта.

Используй curl/zend_http_client, т.к с ними проще работать.

MafiaBoy3
10.11.2008, 11:49
ChaaK
Где можно почиать на русском так чтобы выучить ра и навсегда про curl/zend_http_client?

Chaak
10.11.2008, 11:55
Google.com -> работа с curl site:phpclub.ru

Не могу дать прямой ссылки, т.к сижу с тела