![]() |
Парсинг google/yandex
Нужен скрипт на php выполняющий такие действий.
Зашел на сайт пропарсил index на содежание слова Код:
875934875983775398475398759387458973Далее пропарсил второй сайт (index) на текст Код:
4098029840203498023498230489029348 |
PHP код:
|
Если реально ya.ru и google.com то скорее так:
file_get_contents("http://www.ya.ru/yandsearch?text=$zapros1); file_get_contents("http://www.google.com/search?hl=ru&q=$zapros2"); |
хм, он просил в теле страницы найти совпадения, а не найти в поиске =\
|
Sn@k3, а что по втойму file_get_contents делает? =\
|
Isis, ты не понял, скрипт записывает не результат поиска, а сам html исходник поисковика
|
Цитата:
"The absoluteURI form is only allowed when the request is being made to a proxy ...". Ваше счастье, если google сделал защиту от "дурака" в ущерб стандарту. 2) Что-то не слышно про ограничения на query, его нужно urlencode'ить в уме? Может быть тогда проще посылать запрос телнетом? :) Цитата:
Цитата:
|
Цитата:
|
2dword
1) исправлено 2) исправлено 3) исправлено 2kib исправлено делал для того, чтобы при подвисании скрипта сохранились данные за последнию итерацию, не использовал "a", потому что надо было чтобы при новом запуске скрипта файл очищался. сейчас немного по другому сделал, файл либо создается, либо очищается при старте и информация записывается после каждого прохода 2all я тут немного не понял суть претензий - я вообще-то накатал скриптег за некоторое время и скинул в топ, в надежде помочь. критерием оценки работы служило "лишь бы работало". в общем я все замечания учел, но все же, я же не за деньги это делаю, так что надо бы понимать что это просто сэмпл, а не какой-то готовый продукт. шевелите мозгами иногда. код: PHP код:
минусов много, скрипт собирает лишние ссылки с рекламы и прочего, так как регекспы писались тоже на скорую руку. правьте сами по желанию. |
| Время: 08:03 |