Как я ускорил анализ дропов с помощью Веб Архива и Python 🔍

195

Как я ускорил анализ дропов с помощью Веб Архива и Python 🔍 Недавно задался вопросом, как...

Недавно задался вопросом, как можно ускорить рутину при проверке дроп доменов в Веб Архиве и понял, что помочь мне с этим снова сможет Python. Единственное, что я хотел массово проверить - это наличие 301 редиректов в Веб Архиве по списку доменов, но потом понял, что можно добавить еще пару пунктов и вот что у меня получилось.

Скрипт по очереди берет домены из txt файла и проверяет их на:

1. Наличие 301 редиректов в Веб Архиве (за последние 27 лет)

2. Выдергивает Title и Description из последнего снимка в Веб Архиве

3. Проверяет дату истечения срока регистрации домена через Who is

В качестве результата скрипт по прежнему создает для меня Excel таблицу с данными колонками (результат на скрине)

Планирую дальше развивать эту идею и добавлять другие критерии для быстрого анализа дроп доменов. Вот некоторые из них:

- Текущий код ответа сервера домена

- Язык контента

- Дата первой регистрации

- Домен не закрыт от Веб Архива

- Наличие снимка в Веб Архиве за последний год

- Наличие главной страницы дропа в индексе Google