PDA

Просмотр полной версии : Парсинг на ноде


Kecer
16.02.2023, 17:47
Ку, хочу сделать некий помощник для администрации аризоны, суть такая условно говоря у меня есть раздел жалоб

https://forum.antichat.xyz/attachments/28257497/

Как можно парсить название темы, и ссылку на тему и выводить её в console.log, и при появление новой темы скрипт будет автоматически проверять и выводить название темы и ссылку на новую тему в console.log. Условно говоря я запускаю бота, и при создание новой темы, бот будет выводить эту тему в console.log. Буду очень благодарен за помощь, ибо реализовать хочу достаточно давно

Kecer
18.02.2023, 15:08
UP

neverlane
19.02.2023, 12:31
1. нужен обход ReactLab (https://github.com/neverlane/reactlab-bypass) для ноды (потому что форум защищён им)

2. каждые 5 секунд получать страничку жалоб и потом парсить её

3. после парсинга сверяешь темы: если какой-то до этого не было - это новая тема и ты её выводишь в

console.log

Kecer
19.02.2023, 15:05
1. нужен обход ReactLab (https://github.com/neverlane/reactlab-bypass) для ноды (потому что форум защищён им)
2. каждые 5 секунд получать страничку жалоб и потом парсить её
3. после парсинга сверяешь темы: если какой-то до этого не было - это новая тема и ты её выводишь в

console.log



Я в принцепи это почти реализовал без обхода, через куки и агент юзер, через rss, и парсил через xml парсер, но возникла следующая проблема, при парсинге всё казалось бы работает, я сделал проверку на ссылку последней темы, но когда допустим какой-то человек отвечает в старой теме, тема перекидывается на первое место, и бот её всё ровно парсит, в rss очень мало ключей за которые можно зацепится, может подскажешь как можно ещё, пытался парсить html и по селектору парсить, но когда я паршу через тот же axios, у меня не весь html странички форума парсится, криво вообщем



1. нужен обход ReactLab (https://github.com/neverlane/reactlab-bypass) для ноды (потому что форум защищён им)
2. каждые 5 секунд получать страничку жалоб и потом парсить её
3. после парсинга сверяешь темы: если какой-то до этого не было - это новая тема и ты её выводишь в

console.log



И ещё если не трудно, хотя бы какой-то пример сможешь показать как использовать твою либу которая позволяет обходить защиту форума, и тот же axios, или может посоветуешь какой-то другой парсер