ANTICHAT.XYZ    VIDEO.ANTICHAT.XYZ    НОВЫЕ СООБЩЕНИЯ    ФОРУМ  
Баннер 1   Баннер 2
Antichat снова доступен.
Форум Antichat (Античат) возвращается и снова открыт для пользователей. Здесь обсуждаются безопасность, программирование, технологии и многое другое. Сообщество снова собирается вместе.
Новый адрес: forum.antichat.xyz
Вернуться   Форум АНТИЧАТ > SЕО/Финансовые задачи/Социальные сети > SЕО - тонкости, методы раскрутки
   
Ответ
 
Опции темы Поиск в этой теме Опции просмотра

гугл выдает 1000 страниц
  #1  
Старый 16.02.2010, 11:35
Аватар для ErrorNeo
ErrorNeo
Moderator - Level 7
Регистрация: 02.05.2009
Сообщений: 894
Провел на форуме:
4297091

Репутация: 2261


Отправить сообщение для ErrorNeo с помощью ICQ
По умолчанию гугл выдает 1000 страниц

сабж, как обойти ограничение и получить остальные стопицот милионов? (желательно не являющиеся дублями тех 1000, что уже есть)

<тьфу, соре. перенесите в прикрепленную тему, если это требуется.> плз.

ps.
в гугле легко-находимого ответа нет, потому можно оставить и как отдельную тему. он будет ей рад :lol: :lol:

Последний раз редактировалось ErrorNeo; 16.02.2010 в 12:53..
 
Ответить с цитированием

  #2  
Старый 16.02.2010, 17:45
Аватар для Pir4tt
Pir4tt
Участник форума
Регистрация: 03.01.2008
Сообщений: 104
Провел на форуме:
400001

Репутация: 111
Отправить сообщение для Pir4tt с помощью ICQ
Cool

Обойти ограничение в 1000 страниц никак, но можно поюзать то что гугл сам же и предоставляет для обхода самого себя B)

Для начала оффициальный FAQ:
_http://code.google.com/intl/ru/apis/soapsearch/reference.html

А теперь кратенько что мы можем поюзать в своих целях

Самое банальное - парсить с заданием доменной принадлежности, либо языка:
ЗАПРОС site:com
ЗАПРОС site:net
ЗАПРОС site и т.д.


В тоже время такая конструкция:
ЗАПРОС site:*com
Даст нам com'овские сайтики без дефисов в имени домена
А такая:
ЗАПРОС site:com -site:*com
Наоборот с дефисами))

А так:
site:com/*
site:com/*/*

Можно поиграть с количеством директорий, присутствующих в адресе

Так же мы можем разделить выдачу по субдоменам на www.domain.any и domain.any:
ЗАПРОС inurl:"www."
ЗАПРОС -inurl:"www."


Так же можно варировать выдачу поставляя различные комбинации в inurl:
ЗАПРОС inurl:"any"

Но следует помнить что гугля, ограничивает выдачу с использованием этого оператора (да-да ).
На это всегда можно смекнуть и сделать запросы примерные этим:
-intext:"any"
-intitle:"any"


Не менее интересен оператор daterange, при помощи которого мы спарсим выдачу по дате (диапозон по Юлианскому календарю):
daterange:2454000-2454000

Остальные хитрости можно легко придумать почитав хелп гугля данный выше
 
Ответить с цитированием

  #3  
Старый 16.02.2010, 21:45
Аватар для ErrorNeo
ErrorNeo
Moderator - Level 7
Регистрация: 02.05.2009
Сообщений: 894
Провел на форуме:
4297091

Репутация: 2261


Отправить сообщение для ErrorNeo с помощью ICQ
По умолчанию

благодарю!
отличный ответ, буду пробовать.
Думаю вариант с датами мне подойдет для того, чтобы спарсить столько сотен тысяч, сколько потребуется
 
Ответить с цитированием

  #4  
Старый 17.02.2010, 01:49
Аватар для diehard
diehard
Постоянный
Регистрация: 30.09.2007
Сообщений: 815
Провел на форуме:
2590715

Репутация: 659


Отправить сообщение для diehard с помощью ICQ
По умолчанию

use additional words:

inurl:"bug.php" apple
inurl:"bug.php" ololo
inurl:"bug.php" ebaka
inurl:"bug.php" green
etc...
 
Ответить с цитированием

  #5  
Старый 19.02.2010, 21:59
Аватар для daniel_1024
daniel_1024
Участник форума
Регистрация: 15.07.2009
Сообщений: 158
Провел на форуме:
698831

Репутация: 34
По умолчанию

ErrorNeo если тебе для парсинга гулга скачай aggress parser, он как раз весь этот процесс автоматизирует + вручную настраивать можно
 
Ответить с цитированием
Ответ



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
акк нуллед - открыть ссылку нужно DVD_RW Болталка 6 23.04.2009 10:25



Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT.XYZ