PDA

Просмотр полной версии : скрэппинг БД


justX
16.08.2016, 07:00
есть сайт, при определенном запросе на который, возвращается json. что бы собрать все данные необходимо около 4-ех миллионов запросов. Особо не шаря в теме, начал делать на node.js.

запрос => ответ => запись в базу.

На n-ом запросе вместо данных приходят ответы с текстом "spam" (не удивительно). Смотрел в сторону change tor circuit, но там вроде тоже ограничение в 10-30 секунд между сменами. Какие мысли есть? Как реализовать смену ip или что то подобное каждые n запросов дабы обойти это ограничение?

Absurd
16.08.2016, 11:55
Собственно, а в чём вопрос-то? Как сменить IP?...через прокси есессно

DarkCaT
17.08.2016, 12:28
justX said:
↑ (https://antichat.live/posts/3981834/)
есть сайт, при определенном запросе на который, возвращается json. что бы собрать все данные необходимо около 4-ех миллионов запросов. Особо не шаря в теме, начал делать на node.js.
запрос => ответ => запись в базу.
На n-ом запросе вместо данных приходят ответы с текстом "spam" (не удивительно). Смотрел в сторону change tor circuit, но там вроде тоже ограничение в 10-30 секунд между сменами. Какие мысли есть? Как реализовать смену ip или что то подобное каждые n запросов дабы обойти это ограничение?


Набери кучу проксей и меняй их по кругу, либо можно использовать тор подняв там контрол порт и используя команду NEWNYM которая будет тебе пересоздавать цепочку. Подробнее можешь почитать тут :

https://gitweb.torproject.org/torspec.git/tree/control-spec.txt#n398