Хозяин
13.02.2008, 07:06
Для тех кто не в курсе что это:
- парсинг результатов выдачи Google, Yahoo, Live, возможность установки глубины просматриваемых страниц. количество результатов на странице для всех поисковых систем - 100.
- многопоточность - произвольное число потоков на SE, отдельные списки запросов для каждой SE, параллельный парсинг нескольких SE, возможность установки таймаута потока
- прокси - HTTP, установка таймаута соединения, возможность парсинга без прокси
- вращение выдачи - буквы, цифры, дополнительные запросы, ALD (Any Level Domain, подстановка конструкции site:домен_любого_уровня в запросы Google)
- принудительная задержка потоков (для парсинга без прокси)
- postmortem-механизм - продолжение парсинга после ребута/выключения сервера
- развернутая статистика - процент выполнения потоков, парсинга в целом, время парсинга
- скачивание выдачи поисковых систем в gzip
- макроподстановки в запросах
- очистка мусора из выдачи
- фильтрация результатов
Требования к хосту:
- UNIX-подобная операционная система
- Perl 5.8.6 и выше, есть в поставке подавляющего большинства UNIX-подобных систем
- Perl-модули: Byteloader, Compress::Zlib, Uncompress::Gunzip, CGI, CGI::Carp, POSIX, Fcntl, LWP::UserAgent
(как вы видите, бесплатные - отпадают)
Архив содержит отличный мануал, по установке и настройке. не вижу смысла его здесь копипастить.
Скачать (http://rapidshare.com/files/91358208/Aura_SE_Parser_1.1.rar.html) пароль antichat
+
Пак апдейтов (http://rs232.rapidshare.com/files/77591415/Aura.rar)
+
Мод для Yahoo (http://rapidshare.de/files/38282249/Yahoo.rar.html)
Конкретный скрипт я заводил. Большинство возможных проблем, из-за отсутствия модулей перла
- парсинг результатов выдачи Google, Yahoo, Live, возможность установки глубины просматриваемых страниц. количество результатов на странице для всех поисковых систем - 100.
- многопоточность - произвольное число потоков на SE, отдельные списки запросов для каждой SE, параллельный парсинг нескольких SE, возможность установки таймаута потока
- прокси - HTTP, установка таймаута соединения, возможность парсинга без прокси
- вращение выдачи - буквы, цифры, дополнительные запросы, ALD (Any Level Domain, подстановка конструкции site:домен_любого_уровня в запросы Google)
- принудительная задержка потоков (для парсинга без прокси)
- postmortem-механизм - продолжение парсинга после ребута/выключения сервера
- развернутая статистика - процент выполнения потоков, парсинга в целом, время парсинга
- скачивание выдачи поисковых систем в gzip
- макроподстановки в запросах
- очистка мусора из выдачи
- фильтрация результатов
Требования к хосту:
- UNIX-подобная операционная система
- Perl 5.8.6 и выше, есть в поставке подавляющего большинства UNIX-подобных систем
- Perl-модули: Byteloader, Compress::Zlib, Uncompress::Gunzip, CGI, CGI::Carp, POSIX, Fcntl, LWP::UserAgent
(как вы видите, бесплатные - отпадают)
Архив содержит отличный мануал, по установке и настройке. не вижу смысла его здесь копипастить.
Скачать (http://rapidshare.com/files/91358208/Aura_SE_Parser_1.1.rar.html) пароль antichat
+
Пак апдейтов (http://rs232.rapidshare.com/files/77591415/Aura.rar)
+
Мод для Yahoo (http://rapidshare.de/files/38282249/Yahoo.rar.html)
Конкретный скрипт я заводил. Большинство возможных проблем, из-за отсутствия модулей перла