HOME FORUMS MEMBERS RECENT POSTS LOG IN  
× Авторизация
Имя пользователя:
Пароль:
Нет аккаунта? Регистрация
Баннер 1   Баннер 2
НОВЫЕ ТОРГОВАЯ НОВОСТИ ЧАТ
loading...
Скрыть
Вернуться   ANTICHAT > ПРОГРАММИРОВАНИЕ > Общие вопросы программирования
   
Ответ
 
Опции темы Поиск в этой теме Опции просмотра

  #1  
Старый 17.01.2024, 21:34
TravkaCode.lover()
Участник форума
Регистрация: 22.06.2023
Сообщений: 100
С нами: 1524813

Репутация: 33
По умолчанию

Приветствую. Хотелось бы узнать как можно парсить динам. сайты без вебдрайвера(возможно ли такое)

Цитата:
Сообщение от Спойлер  

У меня есть код который парсит страницу с составом организаций, код работает все хорошо но он слишком много жрет(webdriver от селениума) хост просто не выдерживает.

Хотелось бы узнать есть ли альтернативные способы парсинга динамических сайтов(весь интернет облазил)
 
Ответить с цитированием

  #2  
Старый 17.01.2024, 21:41
OSPx
Познающий
Регистрация: 05.06.2022
Сообщений: 43
С нами: 2075183

Репутация: 23
По умолчанию

maybe

Scrapy

Open-source framework for efficient web scraping and data extraction.

scrapy.org


GitHub - scrapy-plugins/scrapy-splash: Scrapy+Splash for JavaScript integration

Scrapy+Splash for JavaScript integration. Contribute to scrapy-plugins/scrapy-splash development by creating an account on GitHub.

github.com
 
Ответить с цитированием

  #3  
Старый 18.01.2024, 11:19
Dickson
Участник форума
Регистрация: 31.12.2022
Сообщений: 201
С нами: 1774087

Репутация: 33
По умолчанию

Цитата:
Сообщение от TravkaCode.lover()  

webdriver от селениума
не используй хром, там помимо хрома есть пара различных браузеров
 
Ответить с цитированием

  #4  
Старый 18.01.2024, 20:56
TravkaCode.lover()
Участник форума
Регистрация: 22.06.2023
Сообщений: 100
С нами: 1524813

Репутация: 33
По умолчанию

Цитата:
Сообщение от OSPx  

maybe

Scrapy

Open-source framework for efficient web scraping and data extraction.

scrapy.org


GitHub - scrapy-plugins/scrapy-splash: Scrapy+Splash for JavaScript integration

Scrapy+Splash for JavaScript integration. Contribute to scrapy-plugins/scrapy-splash development by creating an account on GitHub.

github.com

Попробую завтра

Цитата:
Сообщение от Dickson  

не используй хром, там помимо хрома есть пара различных браузеров
я все возможные браузеры попробывал у вебдрайвера, они +- одинаково нагружают сервер
 
Ответить с цитированием

  #5  
Старый 19.01.2024, 16:41
kiaostashi
Познающий
Регистрация: 27.04.2019
Сообщений: 45
С нами: 3709605

Репутация: 63
По умолчанию

scrapy, bs

на крайняк api
 
Ответить с цитированием

  #6  
Старый 19.01.2024, 19:51
Dickson
Участник форума
Регистрация: 31.12.2022
Сообщений: 201
С нами: 1774087

Репутация: 33
По умолчанию

Цитата:
Сообщение от TravkaCode.lover()  

я все возможные браузеры попробывал у вебдрайвера, они +- одинаково нагружают сервер
у меня на сервере с 2 гб озу спокойной работал парс
 
Ответить с цитированием

  #7  
Старый 19.01.2024, 19:58
neverlane
Познавший АНТИЧАТ
Регистрация: 01.11.2018
Сообщений: 1,010
С нами: 3964085

Репутация: 183


По умолчанию

Цитата:
Сообщение от TravkaCode.lover()  

парсит страницу с составом организаций
и нахуя тогда тебе вебдрайвер? не можешь получить страницу простым запросом и любым htmlparser'ом спарить её?
 
Ответить с цитированием

  #8  
Старый 19.01.2024, 22:07
TravkaCode.lover()
Участник форума
Регистрация: 22.06.2023
Сообщений: 100
С нами: 1524813

Репутация: 33
По умолчанию

Цитата:
Сообщение от neverlane  

и нахуя тогда тебе вебдрайвер? не можешь получить страницу простым запросом и любым htmlparser'ом спарить её?
Было бы оно все так легко

ответ от обычного запроса

HTML:





Код:
Please turn JavaScript on and reload the page.

w3IncludeHTML(true);

var _0x6c57=["\x70\x75\x73\x68","\x72\x65\x70\x6C\x61\x63\x65","\x6C\x65\x6E\x67\x74\x68","\x63\x6F\x6E\x73\x74\x72\x75\x63\x74\x6F\x72","","\x30","\x74\x6F\x4C\x6F\x77\x65\x72\x43\x61\x73\x65","4a7cfdf8af5dbb28dc72b0c9ef2ea6bc","b2abcd5f8fa54350af9478551a4ddc78","af44b55b646780f027294f347f9a8abb","\x63\x6F\x6F\x6B\x69\x65","\x52\x33\x41\x43\x54\x4C\x42\x3D","\x64\x65\x63\x72\x79\x70\x74","\x3B\x20\x65\x78\x70\x69\x72\x65\x73\x3D\x54\x68\x75\x2C\x20\x33\x31\x2D\x44\x65\x63\x2D\x33\x37\x20\x32\x33\x3A\x35\x35\x3A\x35\x35\x20\x47\x4D\x54\x3B\x20\x70\x61\x74\x68\x3D\x2F"];function toNumbers(_0x7fdax2){var _0x7fdax3=[];_0x7fdax2[_0x6c57[1]](/(..)/g,function(_0x7fdax2){_0x7fdax3[_0x6c57[0]](parseInt(_0x7fdax2,16))});return _0x7fdax3}function toHex(){for(var _0x7fdax2=1== arguments[_0x6c57[2]]&& arguments[0][_0x6c57[3]]== Array?arguments[0]:arguments,_0x7fdax3=_0x6c57[4],_0x7fdax5=0;_0x7fdax5 _0x7fdax2[_0x7fdax5]?_0x6c57[5]:_0x6c57[4])+ _0x7fdax2[_0x7fdax5].toString(16)};return _0x7fdax3[_0x6c57[6]]()}var a=toNumbers(_0x6c57[7]),b=toNumbers(_0x6c57[8]),c=toNumbers(_0x6c57[9]);document[_0x6c57[10]]= _0x6c57[11]+ toHex(slowAES[_0x6c57[12]](c,2,a,b))+ _0x6c57[13]
setTimeout("location.href='https://old.rodina-rp.com:443/mon/fraction/3/1';",5000);


Должно быть

 
Ответить с цитированием

  #9  
Старый 19.01.2024, 22:32
neverlane
Познавший АНТИЧАТ
Регистрация: 01.11.2018
Сообщений: 1,010
С нами: 3964085

Репутация: 183


По умолчанию

Цитата:
Сообщение от TravkaCode.lover()  

Было бы оно все так легко

ответ от обычного запроса

HTML:





Код:
Please turn JavaScript on and reload the page.

w3IncludeHTML(true);

var _0x6c57=["\x70\x75\x73\x68","\x72\x65\x70\x6C\x61\x63\x65","\x6C\x65\x6E\x67\x74\x68","\x63\x6F\x6E\x73\x74\x72\x75\x63\x74\x6F\x72","","\x30","\x74\x6F\x4C\x6F\x77\x65\x72\x43\x61\x73\x65","4a7cfdf8af5dbb28dc72b0c9ef2ea6bc","b2abcd5f8fa54350af9478551a4ddc78","af44b55b646780f027294f347f9a8abb","\x63\x6F\x6F\x6B\x69\x65","\x52\x33\x41\x43\x54\x4C\x42\x3D","\x64\x65\x63\x72\x79\x70\x74","\x3B\x20\x65\x78\x70\x69\x72\x65\x73\x3D\x54\x68\x75\x2C\x20\x33\x31\x2D\x44\x65\x63\x2D\x33\x37\x20\x32\x33\x3A\x35\x35\x3A\x35\x35\x20\x47\x4D\x54\x3B\x20\x70\x61\x74\x68\x3D\x2F"];function toNumbers(_0x7fdax2){var _0x7fdax3=[];_0x7fdax2[_0x6c57[1]](/(..)/g,function(_0x7fdax2){_0x7fdax3[_0x6c57[0]](parseInt(_0x7fdax2,16))});return _0x7fdax3}function toHex(){for(var _0x7fdax2=1== arguments[_0x6c57[2]]&& arguments[0][_0x6c57[3]]== Array?arguments[0]:arguments,_0x7fdax3=_0x6c57[4],_0x7fdax5=0;_0x7fdax5 _0x7fdax2[_0x7fdax5]?_0x6c57[5]:_0x6c57[4])+ _0x7fdax2[_0x7fdax5].toString(16)};return _0x7fdax3[_0x6c57[6]]()}var a=toNumbers(_0x6c57[7]),b=toNumbers(_0x6c57[8]),c=toNumbers(_0x6c57[9]);document[_0x6c57[10]]= _0x6c57[11]+ toHex(slowAES[_0x6c57[12]](c,2,a,b))+ _0x6c57[13]
setTimeout("location.href='https://old.rodina-rp.com:443/mon/fraction/3/1';",5000);


Должно быть
ну гагажги хаваешь, потому что реактлаб сосу защита

её оч легко обойти

https://www.blast.hk/threads/178585/post-1318765
 
Ответить с цитированием

  #10  
Старый 19.01.2024, 23:22
TravkaCode.lover()
Участник форума
Регистрация: 22.06.2023
Сообщений: 100
С нами: 1524813

Репутация: 33
По умолчанию

Цитата:
Сообщение от neverlane  

ну гагажги хаваешь, потому что реактлаб сосу защита
её оч легко обойти

https://www.blast.hk/threads/178585/post-1318765
Попробывал код, заменил accept и user-agent, в createBypassedSession вставил нужную ссылку ->
 
Ответить с цитированием
Ответ





Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 


Быстрый переход




ANTICHAT ™ © 2001- Antichat Kft.