11 фишек для извлечения и сохранения данных с сайтов

БЕЗ скриптов, макросов, регулярных выражений и командной строки.

Эта статья пригодится студентам, которые хотят скачать все картинки с сайта разом, чтобы потом одним движением вставить их в Power Point и сразу получить готовую презентацию. Владельцам электронных библиотек, которые собирают новые книги по ресурсам конкурентов. Просто людям, которые хотят сохранить интересный сайт/страницу в соцсети, опасаясь, что те могут скоро исчезнуть, а также менеджерам, собирающим базы контактов для рассылок.

Есть три основные цели извлечения/сохранения данных с сайта на свой компьютер:

Чтобы не пропали;
Чтобы использовать чужие картинки, видео, музыку, книги в своих проектах (от школьной презентации до полноценного веб-сайта);
Чтобы искать на сайте информацию средствами Spotlight, когда Google не справляется (к примеру поиск изображений по exif-данным или музыки по исполнителю).

Ситуации, когда неожиданно понадобится автоматизированно сохранить какую-ту информацию с сайта, могут случиться с каждым и надо быть к ним готовым. Если вы умеете писать скрипты для работы с утилитами wget/curl, то можете смело закрывать эту статью. А если нет, то сейчас вы узнаете о самых простых приемах сохранения/извлечения данных с сайтов.

1. Скачиваем сайт целиком для просмотра оффлайн

site_sucker_start

В OS X это можно сделать с помощью приложения HTTrack Website Copier, которая настраивается схожим образом.

Пользоваться Site Sucker очень просто. Открываем программу, выбираем пункт меню File -> New, указываем URL сайта, нажимаем кнопку Download и дожидаемся окончания скачивания.

Чтобы посмотреть сайт надо нажать на кнопку Folder, найти в ней файл index.html (главную страницу) и открыть его в браузере. SiteSucker скачивает только те данные, которые доступны по протоколу HTTP. Если вас интересуют исходники сайта (к примеру, PHP-скрипты), то для этого вам нужно в открытую попросить у его разработчика FTP-доступ.

2. Прикидываем сколько на сайте страниц

google_search_site
Перед тем как браться за скачивание сайта, необходимо приблизительно оценить его размер (не затянется ли процесс на долгие часы). Это можно сделать с помощью Google. Открываем поисковик и набираем команду site: адрес искомого сайта. После этого нам будет известно количество проиндексированных страниц. Эта цифра не соответствуют точному количеству страниц сайта, но она указывает на его порядок (сотни? тысячи? сотни тысяч?).

3. Устанавливаем ограничения на скачивание страниц сайта

site_tracking_limits
Если вы обнаружили, что на сайте тысячи страниц, то можно ограничить число уровней глубины скачивания. К примеру, скачивать только те страницы, на которые есть ссылка с главной (уровень 2). Также можно ограничить размер загружаемых файлов, на случай, если владелец хранит на своем ресурсе tiff-файлы по 200 Мб и дистрибутивы Linux (и такое случается).

Сделать это можно в Settings -> Limits.

4. Скачиваем с сайта файлы определенного типа

allow_file_types

В Settings -> File Types -> Filters можно указать какие типы файлов разрешено скачивать, либо какие типы файлов запрещено скачивать (Allow Specified Filetypes/Disallow Specifies Filetypes). Таким образом можно извлечь все картинки с сайта (либо наоборот игнорировать их, чтобы места на диске не занимали), а также видео, аудио, архивы и десятки других типов файлов (они доступны в блоке Custom Types) от документов MS Word до скриптов на Perl.

5. Скачиваем только определенные папки

path_sitesucker
Если на сайте есть книги, чертежи, карты и прочие уникальные и полезные материалы, то они, как правило, лежат в отдельном каталоге (его можно отследить через адресную строку браузера) и можно настроить SiteSucker так, чтобы скачивать только его. Это делается в Settings -> Paths -> Paths to Include. А если вы хотите наоборот, запретить скачивание каких-то папок, то их адреса надо указать в блоке Paths to Exclude

6. Решаем вопрос с кодировкой

situsucker_choose_charset
Если вы обнаружили, что скачанные страницы вместо текста содержат кракозябры, там можно попробовать решить эту проблему, поменяв кодировку в Settings -> Advanced -> General. Если неполадки возникли с русским сайтом, то скорее всего нужно указать кодировку Cyrillic Windows. Если это не сработает, то попробуйте найти искомую кодировку с помощью декодера Лебедева (в него надо вставлять текст с отображающихся криво веб-страниц).

7. Делаем снимок веб-страницы

web_capture_net
Сделать снимок экрана умеет каждый. А знаете ли как сделать снимок веб-страницы целиком? Один из способов — зайти на web-capture.net и ввести там ссылку на нужный сайт. Не торопитесь, для сложных страниц время создания снимка может занимать несколько десятков секунд. Еще это можно провернуть в Google Chrome, а также в других браузерах с помощью дополнения iMacros.

Это может пригодиться для сравнения разных версий дизайна сайта, запечатления на память длинных эпичных перепалок в комментариях или в качестве альтернативы способу сохранения сайтов, описанного в предыдущих шести пунктах.

8. Сохраняем картинки только с определенной страницы

owdig
Идем на owdig.com, указываем нужную ссылку, ждем когда отобразятся все картинки и кликаем на оранжевую полоску справа, чтобы скачать их в архиве.

9. Извлекаем HEX-коды цветов с веб-сайта

color_combo

Идем на colorcombos.com и набираем адрес искомой страницы и получаем полный список цветов, которые использованы на ней.

10. Извлекаем из текста адреса электронной почты

email_extractor
Предположим, что вам надо сделать рассылку по сотрудникам компании, а их email-адреса есть только на странице корпоративного сайта и копировать их оттуда в ручную займет лишние 20-30 минут. В такой ситуации на помощь приходит сервис emailx.discoveryvip.com. Просто вставьте туда текст и через секунду вы получите список всех адресов электронной почты, которые в нем найдены.

11. Извлекаем из текста номера телефонов

phonenumber_extractor
Идем на convertcsv.com/phone-extractor.htm, копируем в форму текст/html-код, содержащий номера телефонов и нажимаем на кнопку Extract.

А если надо отфильтровать в тексте заголовки, даты и прочую информацию, то к вам на помощь придут регулярные выражения и Sublime Text.

Есть и другие способы извлечения данных с сайтов. Можно попросить какую-ту информацию непосредственно у владельца ресурса, cохранять части веб-страниц с помощью iMacros и парсить сайты с помощью Google Apps Script. Еще можно пойти традиционным путем и написать для парсинга bash-скрипт, но статей об этом на iPhones.ru пока нет.

(5 голосов, общий рейтинг: 4.60 из 5)

Мы в Telegram

Форум

Избранное

Теги: Советы

(ещё...)

Теги: Советы

(ещё...)

iPhones.ru

БЕЗ скриптов, макросов, регулярных выражений и командной строки. Эта статья пригодится студентам, которые хотят скачать все картинки с сайта разом, чтобы потом одним движением вставить их в Power Point и сразу получить готовую презентацию. Владельцам электронных библиотек, которые собирают новые книги по ресурсам конкурентов. Просто людям, которые хотят сохранить интересный сайт/страницу в соцсети, опасаясь, что...

Ирина Чернова

@sweet_princess

Войди и оставь комментарий

Или войди с помощью

<- Назад Забыли пароль? Войти

25 комментариев

Форум →

vs40 5 июня 2016

2

Решили скачать интернет на флешку?

darkfall1156 июня 2016

0

@vs40, на ту самую, российскую!

Ирина Чернова6 июня 2016

0

@darkfall115, :-D

Войди на сайт, чтобы ответить

Ответить
TAIFUN 6 июня 2016

1

Для чего это нужно, стесняюсь спросить? Тупо просматривать информацию в оффлайне? Ну так в Safari есть такая опция.
А php файлы, например, для работы неокторых опций сайта, тоже скачаете? )
Например, какой резон мне выкачивать Ваш блог…

Ирина Чернова6 июня 2016

0

@TAIFUN, несколько из сотен возможных примеров:
1. Нашли старый сайт на narod.ru, посвященный своему городу, на котором лежат десятки уникальных видео в виде файлов mp4, разбросанных по каталогам бессистемно. Быстро скачали их с помощью SiteSucker, а после смотрите и потихоньку выкладываете на Youtube. Руками искать было бы дольше.
2. Или вы собираете библиотеку книг на чувашском языке. Поочередно пропускаете через SiteSucker сайты, где они могут быть и выкачиваете оттуда все pdf/djvu. Google тут бы не помог, так как не все файлы с книгами им индексируются.
3. Вам надо отобрать все фотографии тревел-блогера, сделанные в определенном месте. Если он не стирает exif данные перед выкладкой на свой сайт, то вы можете скачать все картинки с него SiteSucker и в OS X выставить фильтр поиска по широте и долготе.
То есть основные цели скачивания данных с сайта: использовать их в своих проектах/искать на сайте что-то, с чем не справится Google.

Нет, SiteSucker скачивает только html-код и файлы, ссылки на которые есть внутри него.

Вам не знаю какой резон, а так статьи с iPhones некоторые владельцы сайтов скачивают и размещают у себя, без указания источника. Судя по масштабам деятельности, она у них тоже как-то автоматизирована.

Ирина Чернова6 июня 2016

0

@TAIFUN, и большое спасибо за вопросы, благодаря им добавила пару пояснений в статью)

nikioleg6 июня 2016

0

@TAIFUN, этот софт не производит взлом, файлы штмл, загруженные, картинки и т.д. являются априори скачиваеющимися, так как должны исполняться на компьютере пользователя, а вот файлы пшп являются скрытыми и относятся к внутренним, так как исполняются на сторонн сервера, а пользователь получает только ответ от использования этих файлов.

TAIFUN6 июня 2016

0

@nikioleg, я в курсе. )

Войди на сайт, чтобы ответить

Ответить
i_hamster 6 июня 2016

0

А вот подскажите, как видео скачать/сохранить с сайта. Видео курсы всякие смотрю, а видео только онлайн. Для браузеров расширения всякие есть, но заработали только на виндовом буке в мозилле. Кто сталкивался, помогите)

Ирина Чернова6 июня 2016

0

@i_hamster, а savefrom.net вы пробовали?

i_hamster6 июня 2016

0

@Ирина Чернова, да, не находит ссылки. испробовал много подобных сервисов..но тут нюанс – видео на вимео и запаролено. Пароль есессно есть

Ирина Чернова6 июня 2016

0

@i_hamster, а в кэше браузера оно не сохраняется случайно? (а вдруг)

Winterblue6 июня 2016

0

@i_hamster, первое – находите ссылку. Жмете shift-command-A и смотрите ресурс страницы. Можете провести (там есть вкладочка) поиск по “mp4”, “720”, “480” (предположительный размер вашего видео) и тому подобное. Далее копируете ссылку от http и до расширения вашего файла включительно (до .mp4, например). Далее открываете терминал, идете в папку, в которую хотите сохранить файл. Если на рабочий стол, то cd ~/desktop. И далее, наконец, вводите curl -O [вставляете вашу ссылку], жмете enter и будет вам счастье. А советы для школьников не слушайте)

Ирина Чернова6 июня 2016

0

@Winterblue, если бы это работало с vimeo, то, наверное, тогда бы помог savefrom.net. Я вот что-то не нашла там видео-файлы среди ресурсов (но вечер утра мудренее). Скажите, пожалуйста, получилось ли у вас это сделать конкретно с сайтом vimeo?

Winterblue6 июня 2016

0

@Ирина Чернова, c vimeo никогда не приходилось качать, но глянуть можно, попробую разобраться.

goodhoopoe6 июня 2016

0

@Ирина Чернова, а в чем проблема с вимео? видео у них в тэге video. скопировали ссылку, вставили в соседней вкладке, нажали сохранить. готово. единственный нюанс. у вимео есть токены к видео и т.д., но они идут сразу в ссылке в виде параметров.

i_hamster6 июня 2016

0

@Winterblue, спасибо, до компа доберусь – обязательно опробую)

lohmatij6 июня 2016

0

@i_hamster, сталкивался с такой же проблемой, качал запароленные Вимео с помощью специального расширения для google chrome. С айфона название не могу посмотреть но оно легко в магазине chrome находится

Войди на сайт, чтобы ответить

Ответить
i_hamster 6 июня 2016

0

На винде пытался сделать это при помощи videocacheview, но она только сотни файлов (менее мегабайта) находит и не воспроизводит их. А в сафари как из кэша достать?)

Ирина Чернова6 июня 2016

0

@i_hamster, посмотрите здесь пожалуйста https://www.iphones.ru/iNotes/562838

shurr6 июня 2016

0

@i_hamster, на винде раньше был teleportPro, наверное и сейчас есть только улучшенный

Ирина Чернова6 июня 2016

0

@i_hamster, если ничего не поможет, но очень надо есть супер топорный вариант решения проблемы https://www.iphones.ru/iNotes/541993

i_hamster6 июня 2016

0

@Ирина Чернова, вот это, кстати, полезная вещь, для записи вебинаров. Но есть один минус-звук записывается только с микрофона компа. Кроме звука динамиков записывается много посторонних бытовых шумов. Может есть способ писать только аудиопоток из видео, без участия микрофона?

Войди на сайт, чтобы ответить

Ответить
Dexfir 6 июня 2016

0

Когда увидел приписку: “БЕЗ скриптов, макросов, регулярных выражений и командной строки.”, то и читать расхотелось))

Войди на сайт, чтобы ответить

Ответить
akvotil 8 июня 2016

0

Подскажите чем можно скачать диапазон адресов на сайте для доступа к которым нужно авторизоваться на сайте?

Войди на сайт, чтобы ответить

Ответить

Помни о правилах — если начал оффтопить, то не удивляйся потом.

Нашли орфографическую ошибку в новости?

Выделите ее мышью и нажмите Ctrl+Enter.

11 фишек для извлечения и сохранения данных с сайтов

1. Скачиваем сайт целиком для просмотра оффлайн

2. Прикидываем сколько на сайте страниц

3. Устанавливаем ограничения на скачивание страниц сайта

4. Скачиваем с сайта файлы определенного типа

5. Скачиваем только определенные папки

6. Решаем вопрос с кодировкой

7. Делаем снимок веб-страницы

8. Сохраняем картинки только с определенной страницы

9. Извлекаем HEX-коды цветов с веб-сайта

10. Извлекаем из текста адреса электронной почты

11. Извлекаем из текста номера телефонов

Ирина Чернова

СкидOS на 5 июня. Сегодня 8 игр

Тут мы собираем все новости об Apple и не только. В режиме Live
[6 июня: 15:57]

Читайте также. Всё по теме

Полезная Команда. Как сохранить в заметки текст с любого сайта в Safari

Поставил новые модные светильники Yeelight и забыл про выключатели света по всей квартире. Радуюсь как ребенок

Как на iPhone настроить хайповую заставку с выключателем света

15 скрытых и полезных фишек приложения YouTube. Например, подсветка фона

Как на iPhone включить автоматическую сортировку почты. Работает в iOS 18.2

Слушаю виниловые пластинки через Bluetooth! Обзор проигрывателя Reproductor RP-LPX500SP, шикарно смотрится в интерьере

Пью каждое утро потрясающий кофе. Обзор кофемашины Hyundai HAM-5405, которая умеет буквально всё

Зачем подключать подписку от оператора. Отзыв про МТС Премиум, какие привилегии даёт и окупается ли

Войди и оставь комментарий

25 комментариев

Нашли орфографическую ошибку в новости?

Как на Mac смотреть скорость подключения к сети и отслеживать лимит трафика

Как объединить несколько мессенджеров в одном приложении

Как на iPhone настроить разную громкость для каждого профиля Фокусирования

Как правильно настроить фишку «Не беспокоить водителя» в iOS 11

Как на iPhone быстро включать и выключать режим Антиукачивание

Как отключить звук запуска Mac в macOS Big Sur

Раскладка клавиатуры происходит со второго раза в macOS

Как перезапустить зависший Touch Bar без перезагрузки MacBook

Войди и оставь комментарий

11 фишек для извлечения и сохранения данных с сайтов

1. Скачиваем сайт целиком для просмотра оффлайн

2. Прикидываем сколько на сайте страниц

3. Устанавливаем ограничения на скачивание страниц сайта

4. Скачиваем с сайта файлы определенного типа

5. Скачиваем только определенные папки

6. Решаем вопрос с кодировкой

7. Делаем снимок веб-страницы

8. Сохраняем картинки только с определенной страницы

9. Извлекаем HEX-коды цветов с веб-сайта

10. Извлекаем из текста адреса электронной почты

11. Извлекаем из текста номера телефонов

Ирина Чернова

СкидOS на 5 июня. Сегодня 8 игр

Тут мы собираем все новости об Apple и не только. В режиме Live[6 июня: 15:57]

Читайте также. Всё по теме

Полезная Команда. Как сохранить в заметки текст с любого сайта в Safari

Поставил новые модные светильники Yeelight и забыл про выключатели света по всей квартире. Радуюсь как ребенок

Как на iPhone настроить хайповую заставку с выключателем света

15 скрытых и полезных фишек приложения YouTube. Например, подсветка фона

Как на iPhone включить автоматическую сортировку почты. Работает в iOS 18.2

Слушаю виниловые пластинки через Bluetooth! Обзор проигрывателя Reproductor RP-LPX500SP, шикарно смотрится в интерьере

Пью каждое утро потрясающий кофе. Обзор кофемашины Hyundai HAM-5405, которая умеет буквально всё

Зачем подключать подписку от оператора. Отзыв про МТС Премиум, какие привилегии даёт и окупается ли

Войди и оставь комментарий

25 комментариев

Нашли орфографическую ошибку в новости?

Как на Mac смотреть скорость подключения к сети и отслеживать лимит трафика

Как объединить несколько мессенджеров в одном приложении

Как на iPhone настроить разную громкость для каждого профиля Фокусирования

Как правильно настроить фишку «Не беспокоить водителя» в iOS 11

Как на iPhone быстро включать и выключать режим Антиукачивание

Как отключить звук запуска Mac в macOS Big Sur

Раскладка клавиатуры происходит со второго раза в macOS

Как перезапустить зависший Touch Bar без перезагрузки MacBook

Тут мы собираем все новости об Apple и не только. В режиме Live
[6 июня: 15:57]