Скачиваем сайт из вебархива. Мой опыт

Давайте накидаем ключевиков сначала: как скачать сайт из вебархива, как скачать сайт полностью из webarchive.

А теперь, поговорим нормально — расскажу, как я выкачивал сайт из вебархива.

Сразу скажу — гуглил по пояс. И архиварикс попробовал (платно) и другие проги, типа HTTrack и др.

Даже хотел плюнуть и тупо заказать кворк на сайте kwork.

И какого было мое удивление/разочарование, что минимальная цена работы на кворке теперь не 500 руб, а 700р. 500 рублей стоит сам кворк, а 200 рублей сверху комиссия биржи. (на момент написания статьи)

Нет, нормально да? Сначала fl.ru охерел со своей комиссией, теперь в след за ним кворк. Почему как только сервис/продукт становится народным, то он обязательно спаскудится?

Короче, после некоторых мытарств установил RubyInstaller и с помощью него скачал сайт. Я так понимаю, это самый адекватный способ скачать сайт из вебархива.

А теперь по порядку, как это было.

Сначала наткнулся на это видео:

Посмотрел его и прямо по нему по порядку делал:

1. Скачал rubyinstaller. Установил на свою винду как обычную программу.

2. Обязательно! Из «Пуск» запускать командную строку через «правой кнопкой — запустить от имени администратора». Иначе у вас будут вылетать ошибки, что якобы прав не хватает и тд и тп.

3. В видео дается полезная ссылка на гитхабовский дистриб (качалки сайтов). По этому мануалу я и строил команды.

В моем случае нужный мне сайт в вебархиве после определенной даты был изменен на другой, который мне не нужен был, поэтому я выставил дату, до которой нужно было скачать сайт:

wayback_machine_downloader http://example.ru/ --to 20211216114235

Он скачался, но не было ни дизайна (скачался без css), ни картинок. В общем эти данные видимо архивировались в другое время.

Вы в курсе, что разные детали сайта архивируются в разное время?

Короче, сайт скачался не полностью. Я не стал еб#ться и выяснять даты загрузки отдельных деталей. Я просто раза четыре поскачивал разные временные промежутки, а потом накатил всё поверх на первый не докаченный сайт.

По тому же мануалу с гитхаба (там прокрутите вниз, увидите мануал) я выставил временной промежуток, и получилась команда:

wayback_machine_downloader http://example.ru/ --from 2021 --to 2022

То есть за весь 2021 год. Можно стереть все остальные цифры, оставить только год и всё сработает корректно.

wayback_machine_downloader http://example.ru/ --from 2020 --to 2021

А это за весь 2020 год.

Короче, поскачивал несколько раз разные промежутки и поскидывал всё в одну папку «копировать с заменой» )).

Вот так вот я качал сайт из вебархива.

Особое внимание хотел бы обратить на следующую настройку. Этот параметр позволяет скачивать файлы из вебархива в несколько потоков. У меня сайт был на 6,2к файлов и я не воткнул этот параметр, прикиньте, сколько я ждал.

Потом я просто добавлял этот ключ и всё буквально летало, то есть так:

wayback_machine_downloader http://example.com --from 2020 --to 2021 --concurrency 20

Поставил 20 потоков.

Такие дела.

В общем, пробуйте. Пишите в комментарии о своих успехах.

17370cookie-checkСкачиваем сайт из вебархива. Мой опыт
Оцените статью
Техдокументация вебмастера
Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии