Linux-инструменты для построения Web-пауков
Мы показали примеры создания scraper- и spider-агентов. Эту же функциональность можно реализовать и с помощью Linux-инструментов.
Полезная команда wget (Web get) позволяет организовать рекурсивную работу с Web-сайтом и сбор интересующего вас контента. Вы можете указать определенный Web-сайт, интересующий вас контент и некоторые другие административные опции. Эта команда перекачивает нужные файлы на ваш локальный компьютер. Например, команда следующего вида подключит вас к заданному URL-адресу и рекурсивно опустится не более чем на три уровня, собирая по пути все файлы с расширениями mp3, mpg, mpeg и avi.
wget -A mp3,mpg,mpeg,avi -r -l 3 http://<some URL>
Команда curl действует аналогичным образом. Ее преимущество состоит в том, что в настоящее время она активно дорабатывается. Вы можете использовать и другие подобные команды – snarf, fget и fetch.