Качаешь индекс, парсиш ссылки, если на том-же домене качаеш страницу и опять парсинг), когда дошел до конца страницы в парсинге и если это индекс то выход из цикла... только вот нафег оно?
выковыривай все что начинается с http://. и то, тебе надо будет пройтись по полученным ссылкам и в них искать ссылки, и так ты скачаешь все страницы с сайта