SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чаты​Изоляция сессий и веб-краулинг Изоляция сессии?! Это похоже на...

 1115  


​Изоляция сессий и веб-краулинг

Изоляция сессии?! Это похоже на концепцию "stateless", используемую для веб-краулеров, где все запросы выполняются без повторного использования куки и без сохранения в памяти каких-либо конкретных данных. Но изоляция сессии предназначена для рендеринга.

Если вы отображаете страницу, а сессия рендеринга не изолирована, страница может получить данные из предыдущих сессий рендеринга других страниц. Инструмент веб-краулинга с проблемами изоляции сессий может создавать произвольное дополнительное содержимое HTML.

Это дополнительное содержимое не будет присутствовать в результатах рендеринга (основных) поисковых систем, что создает рискованную ситуацию при анализе результатов процесса ползания/рендеринга.

Эту проблему не так просто обнаружить, и она не ограничивается веб-краулерами. Все системы, использующие браузерные функции, могут быть затронуты, например, сервисы динамического рендеринга, инструменты анализа веб-производительности и CI/CD-конвейерные тесты.

Ребята из компании Merj протестировали изоляцию хранилищ (Cookie, IndexedDB, LocalStorage и SessionStorage) и кросс-таб коммуникацию (Broadcast Channel и Shared Worker) на 14 популярных провайдерах краулинга с интересными результатами.

Описания теста и результаты найдете в статье merj.com/blog/validating-session-isolation-for-web-crawling-to-provide-data-integrity

Netpeak Spider и Sitebulb чет совсем не важно себя показали.

@MikeBlazerX

Ссылки из поста:
https://t.me/MikeBlazerX

Источник новости https://t.me/mikeblazerx/837...