Есть интернет-магазин с фильтрацией по характеристикам и...
❓Вопрос 5717
Есть интернет-магазин с фильтрацией по характеристикам и сортировкой товаров. При включении фильтрации и сортировки в url появляется комбинация get-параметров страниц, которая генерирует бесчисленное множество вариаций страниц с параметрами. При запрете этих параметров в robots.txt в GSC в разделе индексации часть этих комбинаций может появляться в разделе "Проиндексировано, несмотря на блокировку в файле robots.txt", а если мы ставим <meta name="robots" content="noindex, nofollow" /> в head, то роботы google триггерятся и начинают сканировать эти комбинации страниц и добавлять их в раздел "Страница просканирована, но пока не проиндексирована", что тратит краулинговый бюджет в пустую. Тег canonical так же не подходит, т.к. он является "рекомендательным" и может быть проигнорирован при индексировании страницы. Каким способом запретить эти страницы с параметрами, чтобы роботы не обходили и не индексировали их?
❗️Ответ
Краткий ответ – без специальных заморочек это сделать невозможно и нужно ли?
Google в своих рекомендациях прямо указывает, что, цитата: «даже если вы укажете каноническую страницу самостоятельно, мы по той или иной причине можем выбрать другую», ситуация с robots.txt аналогичная. Даже если вы укажите все эти запреты – для алгоритмов Google это лишь рекомендации. Поэтому, через время вы все равно увидите эти страницы в отчете в GSC, но это означает, что вам нужно просто обратить пристальное внимание на эти страницы.
На краулинговый бюджет стоит обращать внимание только когда становится видно, что боты не успевают переобходить важные страницы, до этого момента на него можно не обращать внимание. Если у вас не слишком крупный сайт - с краулинговым бюджетом вообще проблем быть не должно.
💡 Что можно сделать, чтобы робот не индексировал эти страницы?
✅ Убрать все возможные внутренние и внешние ссылки на эти страницы: нет ссылок – краулеры поисковой системы их не видят – страницы не попадают в индекс;
✅ Сделать фильтрацию при помощи JS, в данном случае вся фильтрация будет происходить в браузере пользователя, в результате будет оставаться статичный URL. Роботы поисковых систем физически не будут видеть никаких ссылок с get-параметрами, а все клики пользователей будут проходить на единственной странице – точке входа;
✅ Создать из этих страниц фильтров точки входа (если вы видите, что страница посещаема пользователями, например, это «товар + характеристика», вы просто создаете из этого фильтра (или набора фильтров) статическую страницу, прописываете ей метатеги, и пользователь переходит уже не на страницу фильтра, а на хорошую страницу с url не из набора get параметров, а с нормальным чпу; преимущества этого подхода также и в том, что такая страница может успешно ранжироваться в выдаче по низкочастотному запросу.
👉 Итоговый вывод таков: посмотрите, сколько страниц с наборами фильтров у вас в этих отчетах, создайте из части из них нормальные страницы с хорошими URL, а остальные закройте любым из способов: запрет в robots, запрет индексации на странице.
‼️Прокомментировать ответ или задать уточняющий вопрос можно у нас в блоге. Делитесь мнением и опытом в комментариях!
🚨 via @siteclinic_doctor 🚨
Ссылки из поста:– https://developers.google.com/search/docs/crawling...
– https://developers.google.com/search/docs/crawling...
– https://developers.google.com/search/docs/crawling...
– https://siteclinic.ru/blog/internal-optimization/z...
Источник новости https://t.me/siteclinic_doctor...
133 
