![]() |
Скорее всего эта штука никому и нужна не будет, но, у меня возникали проблемы с парсингом через requests, решил сделать простой гайд на проверку использования сайтом капчи. Просто некоторые сайты используют блокировку подобных запросов, и с первого взгляда хер поймёшь, тот ли там HTML или нет. Python: Код:
importТехнология следующая: 1) Передаём ссылку в метод gethtml 2) Открываем появившийся в директории со скриптом файл index.html Как понять?: 2) Если страница загружается, но на ней не те объекты - парсинг через requests[S]невозможен[/S] https://forum.antichat.xyz/attachmen...58c1377b64.png 3) Если на странице видите число -1, то на ссылку зайти вообще не вышло. https://forum.antichat.xyz/attachmen...93a7aa999e.png 3)Если страница подгружает только HTML маркировку, без CSS - парсингу это никак не помешает, возможно. https://forum.antichat.xyz/attachmen...b8737c3dbf.png 4) Если страница загружается полностью со всеми стилями - преград для парсинга вообще нет. https://forum.antichat.xyz/attachmen...5b7608f814.png *** Если страница долго грузится, то зайдите в html код, скорее всего там всё есть. Но для достоверности лучше подождать пока она загрузится. |
А что за модули fake_headers и fake_useragent? Ты о них не сказал в теме, да и мне кажется можно обойтись без них, просто вписать headers в реквест сразу (User-Agent, куки и бла-бла-бла)
|
Цитата:
Кому нужно без сторонних либ: Цитата:
|
это же просто проверка на то, ответил ли сервер статусом 200
как оно связано с капчей? |
сайты "не поддающиеся парсингу" скорее всего содержат джаваскрипт хрень, которую requests не в состоянии переварить. ты какой-то ерундой занимаешься, хз зачем твой инструмент нужен вообще
Цитата:
|
Цитата:
captcha при парсе? Цитата:
|
Сделай так, чтобы после парса открылась страница в selenium, ту которую ты спарсил.
|
Цитата:
|
Цитата:
Если можно просто открыть в селениуме без всего, что написал ТС |
| Время: 19:09 |