ANTICHAT

ANTICHAT (https://forum.antichat.xyz/index.php)
-   Linux, Freebsd, *nix (https://forum.antichat.xyz/forumdisplay.php?f=124)
-   -   скачивание robots.txt (https://forum.antichat.xyz/showthread.php?t=1849382)

absurdo 23.11.2010 21:20

подскажите пожалуйста скрипт для решения такой задачи: есть файл со списком адресов сайтов, каждый сайт с новой строки, адрес начинается с http:// Нужно скачать файл robots.txt у каждого сайта, и сохранить с именем домена, например: mysiteru.txt (содержит robots.txt сайта mysite,ru), mysitecomua.txt (mysite.com.ua), subdomainmysitenet.txt (subdomain.mysite.net).

ask0n 23.11.2010 21:57

Код:


Код:

cat filename | awk -F/ '{print $0" -O "$3}' | xargs -L1 wget
Это если в файле есть полный путь к robots.txt в URL, если нет, тогда так:

Код:


Код:

cat filename | awk -F/ '{print $0"/robots.txt -O "$3}' | xargs -L1 wget

absurdo 24.11.2010 14:38

спасибо, на выходных будет доступ к никсу, попробую.

rayahari 22.02.2011 20:56

А в каком формате сохранить этот скрипт? Или каждый раз через терминал проганять?

absurdo 24.02.2011 13:11

Цитата:


rayahari написал(а):

А в каком формате сохранить этот скрипт? Или каждый раз через терминал проганять?


в формате bash


Время: 00:57