PDA

Просмотр полной версии : скачивание robots.txt


absurdo
23.11.2010, 21:20
подскажите пожалуйста скрипт для решения такой задачи: есть файл со списком адресов сайтов, каждый сайт с новой строки, адрес начинается с http:// Нужно скачать файл robots.txt у каждого сайта, и сохранить с именем домена, например: mysiteru.txt (содержит robots.txt сайта mysite,ru), mysitecomua.txt (mysite.com.ua), subdomainmysitenet.txt (subdomain.mysite.net).

ask0n
23.11.2010, 21:57
Код:



cat filename | awk -F/ '{print $0" -O "$3}' | xargs -L1 wget


Это если в файле есть полный путь к robots.txt в URL, если нет, тогда так:

Код:



cat filename | awk -F/ '{print $0"/robots.txt -O "$3}' | xargs -L1 wget

absurdo
24.11.2010, 14:38
спасибо, на выходных будет доступ к никсу, попробую.

rayahari
22.02.2011, 20:56
А в каком формате сохранить этот скрипт? Или каждый раз через терминал проганять?

absurdo
24.02.2011, 13:11
rayahari написал(а):

А в каком формате сохранить этот скрипт? Или каждый раз через терминал проганять?


в формате bash