Всегда был сторонником того, что не надо палить урл сайтмапа в...
Всегда был сторонником того, что не надо палить урл сайтмапа в robots.txt, чтобы не облегчать парсинг сайта школьникам.
Oliver Mason (OHGM) пошел дальше и приводит способы скрытия сайтмапа.
Не нужно принимать все пункты всерьез, некоторые из них - просто пример того, как далеко можно зайти в идее делать что-то вразрез с общепринятой практикой.
1. Search Console не позволит указать урл сайтмапа на другом домене, но если вы создадите урл с редиректом,
то это сработает (консоль любит притворяться, что редиректов не существует, слепо следует им и сообщает результат назначения, а не введенный вами урл).
2. Не располагать ее по простому адресу /sitemap.xml
3. Не ссылайтесь на нее в robots.txt - достаточно добавить сайтмап в консоли Гугла и Яндекс Вебмастере.
4. Иногда Гугл показывает сайтмап в проиндексированных
в таком случае есть смысл добавить HTTP-заголовок X-Robots-Tag: noindex
5. Клоакинг: отдавайте сайтмап только нужным юзер-агентам или проверяйте ботов по диапазону IP (Гугл официально публикует список IP, с Яндексом сложнее). Джон Мюллер, кстати, не возражает.
6. Удалить расширение .xml (главное правильный Content-type). Это противоречит документации Гугла, но тесты показывают, что способ рабочий.
7. Использовать txt-формат карты сайта
8. Используйте сложное имя файла, типа j1z2x3c4v5b6n7m8l0p9kijhgfsecr5tgnu8-speak-to-oliver-this-is-important
9. Используйте приманку. Если у вас есть полный XML sitemap в стандартном месте, указанном в файле robots.txt, любой, кто покопается в нем, может предположить, что это все, что вы отправляете поисковым системам.
Ссылки из поста:– https://ohgm.co.uk/hiding-xml-sitemaps/
– https://www.google.com/search?q=site:https://www.g...
– https://www.gstatic.com/ipranges/goog.json
– https://twitter.com/JohnMu/status/1295836619086454...
Источник новости https://t.me/notjohnmu/93...
72 
