Форум АНТИЧАТ

Форум АНТИЧАТ (https://forum.antichat.xyz/index.php)
-   PHP, PERL, MySQL, JavaScript (https://forum.antichat.xyz/forumdisplay.php?f=37)
-   -   Парсинг сайта браузерной игры (https://forum.antichat.xyz/showthread.php?t=176268)

Tisar 04.02.2010 23:33

Парсинг сайта браузерной игры
 
Некоторое время назад играл в браузерку Ботва-Online, так вот, там было большой проблемой поиск противника в соответствии со своим лвлом и статами. Нашёл сайт (написаный на JavaScript) который осуществляет подобный поиск, но при поиске приходилось долго ждать результата т.к. парсинг и проверка соответствия требуемым параметрам производилась на стороне пользователя. Некоторое назад сайт загнулся, а автор не планирует его в дальнейшем обслуживать.

Хочу попробовать создать подобный сайт, но с гораздо более гибкими возможностями поиска и мгновенным выводом результата (поиск будет производиться в заранее созданной БД с характеристиками всех игроков). Вот тут и подстерегает главная проблема. По данным разработчиков браузерной игры всего было выполнено 1,5 милиона регистраций новых персонажей. БД желательно обновлять раз в 3-7 дней т.е. за час нужно производить парсинг ~ 9 000 страниц (10-15 Кбайт). (не беру в расчёт, что в будущем можно будет обновлять так часто только реально играющих игроков, а остальных ещё реже)

Внимание вопрос:
1) Бред или не бред, а вполне реализуемо?
2) Не забанит ли хостер за подобные дела? :mad:
3) ваши мысли по возможности реализации.
4)

olishort 04.02.2010 23:38

Вполне реализуемо
Не должен
Трафика правда многа

mr.The 04.02.2010 23:38

1) реализуемо
2) купи вдс\впс
3) preg_math твой друг

Tisar 05.02.2010 23:23

Вначале планируется доход только от рекламы на сайте и в этом случае мало вероятно что окупятся расходы на VPS / VDS сервер (700-900 руб./месяц).
1) Мб кто нибудь знает хостинги, где к парсингу боле мене закрывают глаза? (некоторые люди меня быстренько отправят в Google, хотелось бы услышать мнения людей пользовавшихся или слышавшие о таких хостерах)
2) как я понял если используешь VPS / VDS сервер, то провайдер без разнице чем ты на нём занимаешься? Хоть для рассылки спама используй данный сервер?

Набросал часть скрипта для парсинга и получилось что для его реализации мне требуется: CURL, tidy (для исправления полученной страници) и т.к. не очень пока дружу с регулярными выражениями, то для парсинга использую DOM.

Tisar 16.02.2010 23:37

В общем вопрос остался тот же, но с некоторыми дополнениями:

Вначале планируется доход только от рекламы на сайте и в этом случае мало вероятно что окупятся расходы на VPS / VDS сервер (700-900 руб./месяц).
1) Мб кто нибудь знает платные хостинги (как я понял искать бесплатный хостинг с поддержкой Curl бесполезное занятие), где на парсинг боле мене закрывают глаза? (парсить сайт буду через прокси, иначе думаю админы ресурса который будут парсить быстро спалят меня) (некоторые люди меня быстренько отправят в Google, хотелось бы услышать мнения людей пользовавшихся или слышавшие о таких хостерах)
2) как я понял если используешь VPS / VDS сервер, то провайдер без разнице чем ты на нём занимаешься? Хоть для рассылки спама используй данный сервер?

Переписал весь скрипт парсера (Парсить теперь буду регулярными выражениями. В итоге вышло надёжнее и удобнеею) и теперь для его работы мне требуется только Curl.

Solker 17.02.2010 00:17

Можно и без Curl'a, fsockopen. Зачем тебе VDS? Найди старый комп, купи за 300 рублей у соседа. Накатай на него Debian (не Debian). Повесь апач и веб сервер.
Теперь у тебя есть тестовая платформа для тестирования твоего мега-парсера (4 регулки?). Твой парсер - это один скрипт. Который просто по циклу прогоняет все страницы пользователей и собирает данные, создает md5, сравнивает с тем, что в базе. Если изменился - то записывает новые.
Запускаешь скрипт в работе 24ч с промежутком между циклами 30секунд например, чтоб наверника. И после завержения он снова вызывает сам себя.
Спустя пару дней смотришь базу, пробуешь писать обработчик всего этого.

И если случилось чудо и ты написал обработчик (и он даже работает). То беги и оплачивай свой VDS (который тебе нахрен нужен).

QtQDuck 17.02.2010 00:35

Был БОТ, который работает именно с парсингом. Причем конкретно для Ботвы... Не знаю как сейчас, но пол года назад,может год, такой бот был.
Так что ДА, реализуемо.
Цитата:

Сообщение от Tisar
1) Мб кто нибудь знает хостинги, где к парсингу боле мене закрывают глаза? (некоторые люди меня быстренько отправят в Google, хотелось бы услышать мнения людей пользовавшихся или слышавшие о таких хостерах)
2) как я понял если используешь VPS / VDS сервер, то провайдер без разнице чем ты на нём занимаешься? Хоть для рассылки спама используй данный сервер?

Набросал часть скрипта для парсинга и получилось что для его реализации мне требуется: CURL, tidy (для исправления полученной страници) и т.к. не очень пока дружу с регулярными выражениями, то для парсинга использую DOM.

1) Ищи дешевый хостинг. Они даже и не проверяют(или просто закрывают глаза)...по крайней мере у меня именно так.
2) Использую VPS\VDS сервер, за 3 месяца никаких претензий ко мне не было.

Tisar 17.02.2010 09:54

Цитата:

Сообщение от Solker
Можно и без Curl'a, fsockopen. Зачем тебе VDS? Найди старый комп, купи за 300 рублей у соседа. Накатай на него Debian (не Debian). Повесь апач и веб сервер.
Теперь у тебя есть тестовая платформа для тестирования твоего мега-парсера (4 регулки?). Твой парсер - это один скрипт. Который просто по циклу прогоняет все страницы пользователей и собирает данные, создает md5, сравнивает с тем, что в базе. Если изменился - то записывает новые.
Запускаешь скрипт в работе 24ч с промежутком между циклами 30секунд например, чтоб наверника. И после завержения он снова вызывает сам себя.
Спустя пару дней смотришь базу, пробуешь писать обработчик всего этого.

И если случилось чудо и ты написал обработчик (и он даже работает). То беги и оплачивай свой VDS (который тебе нахрен нужен).

Почему ваш ответ настолько скептический? Вы сразу родились "крутым" программист не когда не учились, не спрашивали у людей как лучше поступить? В БД у меня парсится 21 параметр. Обработчик просто выводит данные на страницу в соответствии с некоторыми условиями, всё эти условия задаются в MySQL запросе.

Solker 17.02.2010 11:57

Я просто хочу сэкономить ваши деньги.
Сначала надо что-то сделать а потом уже бежать и оплачивать сервер, а не наоборот.

b3 17.02.2010 17:08

Цитата:

(поиск будет производиться в заранее созданной БД с характеристиками всех игроков).
Бред, ктото воспользуется твоим поиском, нападет на противника, а статы противника парсились не только что а к примеру 25 минут назад, и противник получил ЛВЛап и прокачал статы на все бабки, и он тебя разрывает в сухую.

ЗЫ Игра понравилась, я даже бота написал накручивающего бабки за приглашения прокси ботов, сейчас пишу бота для файтинга каждые 15 минут.


Время: 05:44