Загадка Googlebot Мы разгадали загадку краулинга...
102
Загадка Googlebot
Мы разгадали загадку краулинга Googlebot'ом неожиданных 404-ых ошибок и развернули автоматическую систему смягчения для клиентов Vercel, сообщает Мальте Убл.
Анализируя логи нашей платформы, мы заметили более высокий, чем ожидалось, процент 404-ых ошибок для Googlebot, которому не было очевидного объяснения.
Копнув глубже, мы заметили еще кое-что: многие URL-адреса, возвращавшие 404, были для вспомогательных ресурсов (JS и CSS, а не документов), и они раньше существовали.
Однако ко времени запроса Googlebot они уже были заменены новым релизом клиента.
Но почему Googlebot запрашивал такие старые URL?
Оказывается, происходит следующее: Googlebot скачивает HTML-документ и потом иногда хранит его у себя неделями!
А затем в какой-то момент рендерит скачанный HTML в хедлесс Chromium браузере.
Этот браузер потом скачивает все вспомогательные ресурсы, на которые были ссылки несколько недель назад.
Естественно, вспомогательные ресурсы к этому времени могут быть уже недоступны, и поэтому мы видим 404 в наших логах.
404-ые ошибки для JS и CSS файлов могут быть крайне проблематичными, так как рендеринг страницы может не сработать.
Google индексирует только отрендеренный DOM (а не исходный HTML), и соответственно неудачные рендеры плохо влияют на SEO.
Так что же можно сделать?
Два года назад Vercel запустил штуку под названием Skew Protection.
Он позволяет автоматически перенаправлять подзапросы на тот же деплой, что и основная страница.
Skew Protection помог бы здесь, но стандартная конфигурация покрывает только минуты и до нескольких дней - а Googlebot ждал неделями.
Это натолкнуло нас на идею: что если мы расширим Skew Protection до 60 дней специально для Googlebot?
Он рендерит действительно старые документы.
Если мы позволим ему запрашивать файлы, которые он запросил бы во время первоначального краулинга, тогда результаты рендеринга будут гораздо ближе к ожиданиям.
И это сработало.
Общий объем 404-ых ошибок снизился на 80%.
Некоторый базовый уровень 404-ых ошибок ожидаем, так как наши клиенты иногда действительно запрашивают файлы, которых легитимно не существует.
Какое влияние это оказывает: намного, намного меньше неудачных краулов для клиентов Vercel.
Skew Protection изначально был разработан, чтобы помочь с краткосрочными ошибками во время деплоя, но оказалось, что это мощный примитив для SEO.
Насколько нам известно, Vercel - единственная платформа, поддерживающая Skew Protection, но мы бы хотели увидеть более широкое принятие этой технологии в индустрии.
https://vercel.com/changelog/automatic-mitigation-of-crawler-delay-via-skew-protection
@MikeBlazerX
– https://www.linkedin.com/feed/update/urn:li:activi...
– https://t.me/MikeBlazerX
Источник новости https://t.me/mikeblazerx/5034...