
19.02.2023, 15:05
|
|
Участник форума
Регистрация: 05.12.2020
Сообщений: 241
С нами:
2862489
Репутация:
18
|
|
Сообщение от neverlane
1. нужен обход ReactLab для ноды (потому что форум защищён им)
2. каждые 5 секунд получать страничку жалоб и потом парсить её
3. после парсинга сверяешь темы: если какой-то до этого не было - это новая тема и ты её выводишь в
Я в принцепи это почти реализовал без обхода, через куки и агент юзер, через rss, и парсил через xml парсер, но возникла следующая проблема, при парсинге всё казалось бы работает, я сделал проверку на ссылку последней темы, но когда допустим какой-то человек отвечает в старой теме, тема перекидывается на первое место, и бот её всё ровно парсит, в rss очень мало ключей за которые можно зацепится, может подскажешь как можно ещё, пытался парсить html и по селектору парсить, но когда я паршу через тот же axios, у меня не весь html странички форума парсится, криво вообщем
Сообщение от neverlane
1. нужен обход ReactLab для ноды (потому что форум защищён им)
2. каждые 5 секунд получать страничку жалоб и потом парсить её
3. после парсинга сверяешь темы: если какой-то до этого не было - это новая тема и ты её выводишь в
И ещё если не трудно, хотя бы какой-то пример сможешь показать как использовать твою либу которая позволяет обходить защиту форума, и тот же axios, или может посоветуешь какой-то другой парсер
|
|
|