Как на php + mysql можно сделать простого паучка, который бы работал по следующему алгоритму:
1. Получить ссылку на ресурс.
2. Паук заходит на сайт и собирает ссылки на все страницы.
3. По найденным ссылкам на страницы он добавляет найденный материал (текст страницы)
в базу данных Mysql.
Хм...по этому алгоритму оно может нихреново зациклиться )))
+1, поэтому нужно составить карту ссылок, исключающую дубликаты, иначе будет вечный цикл. Так же опционально можно сделать фильтр глубины, чтобы уменьшить число итераций (допустим обрабатываются ссылки на 3 уровня вниз, обрабатываются ссылки только с данного домена, etc.)