Как я выкачивал сайт из вебархива

Расскажу, как я выкачивал сайт из вебархива.

Гуглил по пояс, сразу скажу. И архиварикс попробовал (платно) и другие проги, типа HTTrack и др.

Даже хотел плюнуть и тупо заказать кворк на сайте kwork. И какого было мое удивление/разочарование, что минимальная цена работы на кворке теперь не 500 руб, а 700р. 500 рублей стоит сам кворк, а 200 рублей сверху комиссия биржи. Нет, нормально да? Сначала fl охерел со своей комиссией, теперь в след за ним кворк. Почему как только сервис/продукт становится народным, то он обязательно спаскудится?

Короче, после некоторых мытарств установил RubyInstaller и с помощью него скачал сайт. Я так понимаю, это самый адекватный способ скачать сайт из вебархива.

А теперь по порядку, как это было.

Наткнулся это видео:

Посмотрел его и прямо по нему по порядку делал:

1. Скачал rubyinstaller. Установил.

2. Обязательно! Из «Пуск» запускать командную строку через «правой кнопкой — запустить от имени администратора». Иначе у вас будут вылетать ошибки, что якобы прав не хватает и тд и тп.

3. В видео дается полезная ссылка на гитхабовский дистриб (качалки сайтов). По этому мануалу я и строил команды.

В моем случае нужный мне сайт в вебархиве после определенной даты был изменен на другой, который мне не нужен был, поэтому я выставил дату, до которой нужно было скачать сайт:

wayback_machine_downloader http://example.ru/ --to 20211216114235

Он скачался, но не было ни дизайна (скачался без css), ни картинок. В общем эти данные видимо архивировались в другое время. (вы в курсе, что разные детали сайта архивируются в разное время?).

Короче сайт скачался не полностью. Я не стал еб#ться и выяснять даты загрузки отдельных деталей. Я просто раза четыре поскачивал разные временные промежутки, а потом накатил всё поверх на первый не докаченный сайт.

По тому же мануалу с гитхаба (прокрутите вниз, увидите мануал) я выставил временной промежуток, и получилась команда:

wayback_machine_downloader http://example.ru/ --from 2021 --to 2022

То есть за весь 2021 год. Можно стереть все остальные цифры, оставить только год и всё сработает корректно.

wayback_machine_downloader http://example.ru/ --from 2020 --to 2021

За весь 2020 год.

Короче, поскачивал десять раз разные промежутки и поскидывал всё в одну папку «копировать с заменой» )).

Вот так вот я качал сайт из вебархива.

Особое внимание хотел бы обратить на следующую настройку. Это ключ позволяет скачивать файлы из вебархива в несколько потоков. У меня сайт был на 6,2к файлов и я не воткнул этот параметр, прикиньте, сколько я ждал.

Потом я просто добавлял это ключ и всё буквально летало, то есть так:

wayback_machine_downloader http://example.com --concurrency 20

Такие дела.

В общем, пробуйте. Пишите в комментарии о своих успехах.

5 1 голос
Рейтинг статьи
Подписаться
Уведомить о
guest
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии