SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чаты👀 Краулинг-менеджмент. Часть 3. Продолжаем цикл статей

 152  


👀 Краулинг-менеджмент. Часть 3.

Продолжаем цикл статей.

3.1. Сегментация по типам Googlebot'ов

При анализе обычно делят ботов на Desktop и Smartphone. При этом не анализируют специализированные краулеры: Googlebot-Image, Googlebot-Video, AdsBot-Google (для проверки целевых страниц рекламы), Google-Read-Aloud.

Анализ: Фильтруем логи отдельно по каждому из этих user-agent'ов. Ищем аномалии и расхождения.

Пример 1: Googlebot Smartphone активно сканирует страницы товаров, но в логах почти нет хитов от Googlebot-Image на эти же страницы. Изображения товаров, скорее всего, подгружаются через JS-событие, которое основной бот рендерит, а имидж-бот - нет. Ваши картинки не попадают в Google Images, и вы теряете трафик.

Пример 2: AdsBot-Google обходит посадочные страницы для Google Ads раз в три дня, и time-taken для него выше среднего. Исходя из этого вы платите за рекламу, но бот считает ваши лендинги медленными, что напрямую пессимизирует Quality Score и повышает цену клика.

В первом случае вы идете к разработчикам с задачей обеспечить прямую, видимую в HTML-коде ссылку на изображение без JS-манипуляций. Во втором — ваша команда PPC и разработчики получают сигнал о том, что именно эти посадочные страницы требуют немедленной оптимизации скорости, потому что они прожирают рекламный бюджет.

3.2. Анализ хронологии краулинга и вычисление "индекса тупиковости"

Мы анализируем ЧТО краулит бот, но почти никогда не смотрим, В КАКОМ ПОРЯДКЕ он это делает. Пошаговая реконструкция "сессии" одного Googlebot'а вскрывает все дефекты внутренней перелинковки.

Анализ: Берем IP-адрес одного Googlebot'а и фильтруем все его хиты за определенный промежуток времени (например, за несколько часов). Сортируем их по timestamp. Теперь мы видим маршрут перемещений краулера: откуда он пришел и куда пошел дальше. Ищите "тупики" и "петли".

Тупик: Бот заходит на страницу (например, карточку товара) и следующий его хит — это уже совершенно другой раздел сайта. Это значит, что на этой странице нет логичных ссылок для продолжения обхода кластера.

Петля: Бот ходит по кругу между страницами пагинации или фильтров, не в силах выбраться на страницы с реальным контентом.

Вычисляем "индекс тупиковости" для разных типов страниц — процент сессий, которые обрываются на них. Для страниц с высоким индексом нужно внедрять блоки контекстной перелинковки ("С этим товаром покупают", "Похожие статьи"). Для страниц, создающих "петли", нужно пересмотреть логику навигации, возможно, закрыв часть ссылок через rel="nofollow" или JS, чтобы направить бота по нужному маршруту.

3.3. Аудит размера ответа (Response Size)

Многие помешаны на скорости ответа (time-taken), но забывают про его размер (bytes-sent). Для Гугла каждая страница — это "стоимость" в ресурсах. Страница весом 2 МБ "дороже" страницы весом 200 КБ. При ограниченном бюджете бот предпочтет обойти 10 "дешевых" страниц вместо одной "дорогой".

Сортируем все HTML-страницы, которые сканировал Googlebot, по среднему размеру ответа. Игнорируем картинки и скрипты, смотрим только на сам документ. Выявляем топ-10% самых "жирных" страниц. Обычно это страницы, где в HTML запихали огромный CSS, JS-код или base64-картинки. Список этих URL - это список страниц на оптимизацию. Необходимо уменьшить HTML payload этих страниц. Это достигается выносом всего возможного CSS и JS во внешние кэшируемые файлы, оптимизацией DOM-структуры, отказом от встраивания тяжелого контента напрямую в HTML. Каждое уменьшение размера ответа на 100 КБ на важных страницах высвобождает краулинговый бюджет, который будет потрачен на обход новых или более глубоко вложенных страниц. Грубо говоря - это инвестирование в ширину и глубину индексации сайта.

Эти методы требуют более глубокого погружения, но и результат дают совершенно иного порядка, чем рассмотренные ранее.

Есть еще масса приемов по работе с краулингом, но они крайне специфичны, уникальны, массово не применимы и достаточно дорогие по человекочасам. Поэтому, в рамках цикла статей, их рассматривать не будем.

На этом и закончим )))))

#DrMax #SEO #LogAnalysis #TechnicalSEO

Источник новости https://t.me/drmaxseo/966...