Просмотр полной версии : Умные парсеры
MafiaBoy3
10.11.2008, 09:15
Вообщем хочу написать парсер на php , которыйпарсит загруженную страницу вот по такому вот алгоритму:
1. найти в тексте все имена людей и
записать их в файл отдельно
2. найти в тексте все глаголы (Past simple tense) и также записать их в файл отдельно..
Вопрос: Это вообще реально ли?
Можно ли это как то будет ускорить?
-=lebed=-
10.11.2008, 10:12
Вообщем хочу написать парсер на php , которыйпарсит загруженную страницу вот по такому вот алгоритму:
1. найти в тексте все имена людей и
записать их в файл отдельно
2. найти в тексте все глаголы (Past simple tense) и также записать их в файл отдельно..
Вопрос: Это вообще реально ли?
Можно ли это как то будет ускорить?
Реально, если есть словарь глаголов и отдельно имён.
Если без словарей, анализировать где глагог, а где имя каким образом будешь? Попахивает лингвистическим анализатором, сам ты его сходу точно быстро не напишешь...
MafiaBoy3
10.11.2008, 11:12
спасибо а если этих самых имён и глаголов более 10.000 тыс. стоит ли?
И какова будет скорость?
-=lebed=-
10.11.2008, 11:21
спасибо а если этих самых имён и глаголов более 10.000 тыс. стоит ли?
И какова будет скорость?
Не знаю, но если заюзаешь регулярки, имхо, должно относительно быстро получиться...
MafiaBoy3
10.11.2008, 11:34
а как мне можно приучить паука чтобы он мог копировать страницы вконтакте в базу данных?
Вконтакте ведь запаролен
в http запрос добавляй cookiesы контакта.
Используй curl/zend_http_client, т.к с ними проще работать.
MafiaBoy3
10.11.2008, 11:49
ChaaK
Где можно почиать на русском так чтобы выучить ра и навсегда про curl/zend_http_client?
Google.com -> работа с curl site:phpclub.ru
Не могу дать прямой ссылки, т.к сижу с тела
vBulletin® v3.8.14, Copyright ©2000-2026, vBulletin Solutions, Inc. Перевод: zCarot