💡 Как боты читают страницу сайта Googlebot с февраля 2026...
💡 Как боты читают страницу сайта
Googlebot с февраля 2026 читает только первые 2 МБ HTML-документа (ранее было 15 МБ), а всё остальное отбрасывает. В этот лимит входит HTML, вместе с инлайновыми стилями и инлайновыми скриптами (подгружаемые картинки/скрипты/стили сюда не входят).
Таким образом, если в начале документа стоят mega-menu, повторяющиеся ссылки, cookie-баннер, длинный header, inline-код и служебные блоки, они читаются раньше основного текста. Важный контент, schema, ссылки и даже куски тела страницы могут оказаться за пределом первых 2 МБ.
Еще хуже дело обстоит с LLM (кроме Gemini - там один и тот же бот и для LLM и для основного поиска).
LLM тратят токены контекста. Если страница раздута шаблонными блоками, модель тратит окно чтения не на ответ, а на навигацию, футер и обвязку.
Вот интересное исследование, откуда видно, как навигация может съедать “LLM reading budget”. На примере ChatGPT Deep Research показано, что система не просто читает страницу, а извлекает все HTML-ссылки, строит из них рабочий граф и использует внутренние ссылки для переходов без нового поиска. При этом чем больше навигации на странице, тем меньше этого бюджета остается для контента.
По данным исследования окно чтения фиксировано примерно в 5700 символов (что вообще ни о чем). Таким образом, для LLM бота навигация (a href ссылки) конкурирует с контентом за первые байты HTML и за первые токены контекста.
Если в цифрах, то ChatGPT извлекает 1 500–3 000 токенов контента со страницы для принятия решения о цитировании. При этом:
➡️Типичная HTML-страница весит 50 000–200 000 токенов в сыром виде
➡️Реальный полезный контент занимает 500–2000 токенов
➡️96% загружаемых токенов - шум: скрипты, навигация, футер, реклама, CSS
Так что, страница не будет цитироваться не из за плохого контента, а из за того, что LLM просто не доходит до самого контента.
Стандартные приемы преодоления это напасти понятны:
1. Пихаем главный ответ в первый абзац после H1.
2. Урезаем header на ключевых SEO-страницах (в том числе и mega-menu, которое тратит бюджет до основного текста). В идеале мегаменю с сотнями ссылок нужно перенести в отдельный <nav aria-label="site-nav"> в конец <body>
3. Выносим второстепенные блоки ниже <article>.
4. Зачищаем inline CSS и JS из тела страницы.
5. Еще раз проверяем семантическую разметку: <main> или <article> для сути, <nav> для навигации, <aside> для второстепенного хлама.
Проверяем сырой HTML, а не только рендер. Смотрим размер документа, порядок блоков и объём кода до начала основного текста.
И изучите вопрос, как LLM реендерят страницу (например Клавдия вообще не обрабатывает скрипты
🔔 Узнайте как поддержать развитие канала вот здесь.
📔 DrMax: Доказательное SEO 2026 + Введение в Промптоведение:
📚 25 PRO промптов + Pocketbook DrMax: Промптоведение для SEO-стратегов 2026
Ссылки из поста:– https://developers.google.com/search/blog/2026/03/...
– https://x.com/DavidKonitzny/status/206461912767568...
– https://t.me/drmaxseo/1543
– https://t.me/drmaxseo/1144
– https://t.me/drmaxseo/1355
Источник новости https://t.me/drmaxseo/1580...
2 
