Парсинг по списку через wget в консоли

Парсинг по списку через wget в консоли

Допустим у вас есть список файлов которые нужно скачать с сайта
Для скачивания по сети в нужную папку указываю
wget -p /Users/malekc/Desktop/parser/list.txt /Users/malekc/Desktop/parser/

КомандаОписание
wget http://example.com/file.zipскачивание файла file.zip в текущую директорию
wget -P /path/to/save http://example.com/file.zipскачивание файла file.zip в директорию /path/to/save
wget -c http://example.com/file.zipдокачивание файла file.zip в случаи обрыва
wget -O arch.zip http://example.com/file.zipскачивание файла file.zip и сохранение под именем arch.zip
wget -i files.txtскачивание файлов из списка в files.txt
wget —tries=10 http://example.com/file.zipколичество попыток на скачивание
wget -Q5m -i http://example.com/квота на максимальный размер скачанных файлов, квота действует только при рекурсивном скачивании (-r)
wget —save-cookies cookies.txt —post-data ‘username=proft&password=1’ http://example.com/auth.phpидентификация на сервере с сохранением кук для последующего доступа
wget —user-agent=»Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5″ http://example.com/указание User Agent
echo ‘wget http://example.com/file.zip’ | at 12:00скачать http://example.com/file.zip в 12:00 в текущую директорию
wget ftp://example.com/dir/*.zipскачивание всех файлов по шаблону
wget http://example.com/dir/file{1..10}.zipскачивание всех файлов по шаблону
wget -S http://example.com/вывод заголовков HTTP серверов и ответов FTP серверов
wget —spider -i urls.txtпроверка ссылок в файле на доступность
wget -b http://example.com/file.zipскачивание файла в фоне, лог пишется в wget.log, wget.log.1 и т.д.
export http_proxy=http://proxy.com:3128/;wget http://example.com/file.zipскачивание файла *file.zip* через прокси
wget -m -w 2 http://example.com/зеркалирование сайта с сохранением абсолютных ссылок и ожиданием 2-х секунд между запросами
wget —limit-rate=200k http://example.com/file.zipограничение скорости скачивания
wget -R bmp http://example.com/не скачивать bmp файлы
wget -A png,jpg http://example.com/скачивать только файлы png и jpg

Пример использования для скачивания документации Django:

wget -r -k -l 5 -p -E -nc -np https://docs.djangoproject.com/en/1.5/

  • -r — ходим по ссылкам (рекурсивное скачивание)
  • -k — преобразовываем ссылки к локальному виду
  • -p — скачивание ресурсов необходимых для отображения html-страницы (стили, картинки и т.д.)
  • -l — глубина скачивания, 0 — бесконечная вложенность ссылок
  • -nc — не перезаписывать существующие файлы
  • -np — не подниматься выше начального адреса при рекурсивной загрузке