Просмотр полной версии : гугл выдает 1000 страниц
ErrorNeo
16.02.2010, 11:35
сабж, как обойти ограничение и получить остальные стопицот милионов? (желательно не являющиеся дублями тех 1000, что уже есть)
<тьфу, соре. перенесите в прикрепленную тему, если это требуется.> плз.
ps.
в гугле легко-находимого ответа нет, потому можно оставить и как отдельную тему. он будет ей рад :lol: :lol:
Обойти ограничение в 1000 страниц никак, но можно поюзать то что гугл сам же и предоставляет для обхода самого себя B)
Для начала оффициальный FAQ:
_http://code.google.com/intl/ru/apis/soapsearch/reference.html
А теперь кратенько что мы можем поюзать в своих целях:)
Самое банальное - парсить с заданием доменной принадлежности, либо языка:
ЗАПРОС site:com
ЗАПРОС site:net
ЗАПРОС site и т.д.
В тоже время такая конструкция:
ЗАПРОС site:*com
Даст нам com'овские сайтики без дефисов в имени домена ;)
А такая:
ЗАПРОС site:com -site:*com
Наоборот с дефисами))
А так:
site:com/*
site:com/*/*
Можно поиграть с количеством директорий, присутствующих в адресе
Так же мы можем разделить выдачу по субдоменам на www.domain.any и domain.any:
ЗАПРОС inurl:"www."
ЗАПРОС -inurl:"www."
Так же можно варировать выдачу поставляя различные комбинации в inurl:
ЗАПРОС inurl:"any"
Но следует помнить что гугля, ограничивает выдачу с использованием этого оператора (да-да :)).
На это всегда можно смекнуть и сделать запросы примерные этим:
-intext:"any"
-intitle:"any"
Не менее интересен оператор daterange, при помощи которого мы спарсим выдачу по дате (диапозон по Юлианскому календарю):
daterange:2454000-2454000
Остальные хитрости можно легко придумать почитав хелп гугля данный выше ;)
ErrorNeo
16.02.2010, 21:45
благодарю!
отличный ответ, буду пробовать.
Думаю вариант с датами мне подойдет для того, чтобы спарсить столько сотен тысяч, сколько потребуется :)
use additional words:
inurl:"bug.php" apple
inurl:"bug.php" ololo
inurl:"bug.php" ebaka
inurl:"bug.php" green
etc...
daniel_1024
19.02.2010, 21:59
ErrorNeo если тебе для парсинга гулга скачай aggress parser, он как раз весь этот процесс автоматизирует + вручную настраивать можно
vBulletin® v3.8.14, Copyright ©2000-2026, vBulletin Solutions, Inc. Перевод: zCarot