Как можно задать такие правила обхода, чтобы робот мог...
❓Вопрос 5755
Как можно задать такие правила обхода, чтобы робот мог просканировать каталог с определёнными исключениями? Страниц очень много и часть из них внутри каталога нужно исключить из сканирования. Как можно это сделать? Можно привести примеры?
❗️Ответ
Для решения этой задачи есть несколько способов, но это лишь технические рекомендации для роботов, помните, что поисковой робот может к ним и не прислушаться:
✅ Задать настройки сканирования в файле robots.
При помощи атрибута Disallow можно указать конкретные страницы, каталоги или параметры, с которыми вы запрещаете индексацию поисковой системе.
👉 Для этого прописываете в файле robots такую настройку:
Disallow: /catalog/category1/
Disallow: /catalog/*?sort=
Disallow: /catalog/*?filter=
Но этот метод подходит только в том случае, если конкретный список категорий можно выделить по определенной маске.
✅ Метатег в meta robots на странице, указывающий роботам, как именно нужно обращаться с этой страницей.
В html теге <head> вы должны указать такое значение:
<meta name="robots" content="noindex, follow"> - чтобы робот увидел страницу, перешел по всем ссылкам на ней, передал с неё ссылочный вес но не индексировал её;
или
<meta name="robots" content="noindex, nofollow"> - чтобы робот не индексировал страницу, не переходил по ссылкам на ней.
Этот метод, наверное, вам подойдет больше, потому что с его помощью можно вырезать из индекса конкретные страницы, которые никак не схожи между собой по ключам в url. Для этого можно удобно перенести функцию выставления этого тега в админку сайта по галочке – поставили галочку «Не индексировать» - страница не попадает в карту сайта, а на самой странице выставляется meta noindex, убрали галочку в админке – страница попала в карту и на ней появился тег meta index.
✅ Заголовок X-Robots-Tag на уровне сервера.
Если страницы генерируются динамически, отдаются в нестандартных форматах (например, PDF в каталоге) или вы хотите сэкономить ресурсы CMS и не рендерить HTML-код для ненужных страниц, можно отдавать роботам HTTP-заголовок ответа через Nginx:
Nginx
location ~* /catalog/category1/ {
add_header X-Robots-Tag "noindex, nofollow";
}
‼️Прокомментировать ответ или задать уточняющий вопрос можно у нас в блоге. Делитесь мнением и опытом в комментариях!
🚨 via @siteclinic_doctor 🚨
Ссылки из поста:– https://siteclinic.ru/blog/technical-aspects/pravi...
Источник новости https://t.me/siteclinic_doctor...
40 
