🕷Получение карты XML и парсинг по полученным ссылкам
🕷Получение карты XML и парсинг по полученным ссылкам.
Иногда нужно получить все ссылки конкурента (которые должны индексироваться) и спарсить какие то данные. Пример демонстрирует получение xml карты и реализацию однопоточного парсинга (заготовка).
Код на Python который:
🧨Загружает все ссылки из sitemap.xml ;
🧨Проверяет код ответа каждой страницы (200, 404, и т.д.);
🧨Автоматически открывает каждую ссылку через Selenium;
🧨Извлекает заголовок страницы (<title>) - сделано для демонстрации, парсить можно все что угодно;
Позволяет настроить свой User-Agent и задержку между запросами (для некоторых сайтов которые жестко следят за юзерагентом);
Отображает процесс работы: сколько осталось, сколько прошло времени ⏱️;
После завершения — позволяет скачать все результаты в CSV.
По традиции ссылка с исходным кодом на гитхаб.
Ссылки из поста:– https://github.com/Devvver/xml_parser
Источник новости https://t.me/python_seo/35...
211 
