💡 Как боты читают страницу сайта Googlebot с февраля 2026...

158

💡 Как боты читают страницу сайта

Googlebot с февраля 2026 читает только первые 2 МБ HTML-документа (ранее было 15 МБ), а всё остальное отбрасывает. В этот лимит входит HTML, вместе с инлайновыми стилями и инлайновыми скриптами (подгружаемые картинки/скрипты/стили сюда не входят).

Таким образом, если в начале документа стоят mega-menu, повторяющиеся ссылки, cookie-баннер, длинный header, inline-код и служебные блоки, они читаются раньше основного текста. Важный контент, schema, ссылки и даже куски тела страницы могут оказаться за пределом первых 2 МБ.

Еще хуже дело обстоит с LLM (кроме Gemini - там один и тот же бот и для LLM и для основного поиска).

LLM тратят токены контекста. Если страница раздута шаблонными блоками, модель тратит окно чтения не на ответ, а на навигацию, футер и обвязку.

Вот интересное исследование, откуда видно, как навигация может съедать “LLM reading budget”. На примере ChatGPT Deep Research показано, что система не просто читает страницу, а извлекает все HTML-ссылки, строит из них рабочий граф и использует внутренние ссылки для переходов без нового поиска. При этом чем больше навигации на странице, тем меньше этого бюджета остается для контента.

По данным исследования окно чтения фиксировано примерно в 5700 символов (что вообще ни о чем). Таким образом, для LLM бота навигация (a href ссылки) конкурирует с контентом за первые байты HTML и за первые токены контекста.

Если в цифрах, то ChatGPT извлекает 1 500–3 000 токенов контента со страницы для принятия решения о цитировании. При этом:

➡️Типичная HTML-страница весит 50 000–200 000 токенов в сыром виде

➡️Реальный полезный контент занимает 500–2000 токенов

➡️96% загружаемых токенов - шум: скрипты, навигация, футер, реклама, CSS

Так что, страница не будет цитироваться не из за плохого контента, а из за того, что LLM просто не доходит до самого контента.

Стандартные приемы преодоления это напасти понятны:

1. Пихаем главный ответ в первый абзац после H1.

2. Урезаем header на ключевых SEO-страницах (в том числе и mega-menu, которое тратит бюджет до основного текста). В идеале мегаменю с сотнями ссылок нужно перенести в отдельный <nav aria-label="site-nav"> в конец <body>

3. Выносим второстепенные блоки ниже <article>.

4. Зачищаем inline CSS и JS из тела страницы.

5. Еще раз проверяем семантическую разметку: <main> или <article> для сути, <nav> для навигации, <aside> для второстепенного хлама.

Проверяем сырой HTML, а не только рендер. Смотрим размер документа, порядок блоков и объём кода до начала основного текста.

И изучите вопрос, как LLM реендерят страницу (например Клавдия вообще не обрабатывает скрипты

🔔 Узнайте как поддержать развитие канала вот здесь.

📔 DrMax: Доказательное SEO 2026 + Введение в Промптоведение:

📚 25 PRO промптов + Pocketbook DrMax: Промптоведение для SEO-стратегов 2026

Ссылки из поста:
– https://developers.google.com/search/blog/2026/03/...
– https://x.com/DavidKonitzny/status/206461912767568...
– https://t.me/drmaxseo/1543
– https://t.me/drmaxseo/1144
– https://t.me/drmaxseo/1355

Источник новости https://t.me/drmaxseo/1580...

<< Вернуться на канал

30.06.2026 07:59