🏂 Вопрос: Как эффективнее всего определять фейковых ботов...
🏂 Вопрос: Как эффективнее всего определять фейковых ботов Гугла/Яндекса из логов? Если же проверять каждый IP, то можно получить блокировку (тем более будут в логах и настоящие боты). Есть ли какие-то более продвинутые методики? [Владимир, Киев]
Сегодня в рубрике #askshakin снова участвует приглашенный эксперт Виктор Дюбуа, автор канала @drkwng. Благодарю Виктора за уделенное время и привожу его ответ:
В мануалах поисковиков описан алгоритм определения подлинных/фейковых ботов:
- Yandex
Как видим, и там и там нам предлагают делать reverse DNS lookup.
Проблема в том, что большинство останавливаются на пункте, где мы получаем Hostname, посылая запрос на IP адрес, однако это не совсем правильно (читаем, что такое IP spoofing). Необходимо еще послать на Hostname обратно запрос, после чего уже сравнив полученный IP с оригинальным IP из лога.
❓Как можно оптимизировать алгоритм, чтобы нас не забанили❓
1. Брать для анализа подсеть, а не отдельный IP адрес.
2. Google недавно выложил в открытый доступ диапазоны IP Googlebot
К сожалению, по Yandex такого нет, но можно в процессе анализа довольно быстро собрать свою базу, найти или купить в этих наших интернетах (есть свои плюсы и минусы).
3. Очевидно, но уточню - не парсить повторно один и тот же IP адрес (чем больше делаем запросов к одному IP в какой-то небольшой отрезок времени, тем выше риск блокировки). А еще НЕ делать проверки с IP сервера, где сидит наш сайт (подключите прокси).
Когда делаем подобные манипуляции, то мы всегда балансируем между "быстро и 💩" или "медленно и 👍". Всегда можно найти свою золотую середину. Из моего опыта, делать полноценную проверку с обратной отправкой пакетов на Hostname часто нет смысла, только в жестких по конкуренции тематиках или когда вы объективно понимаете, что вас "валят".
Задавайте любые вопросы по SEO в рунете и англоязычном интернете через эту форму:
bit.ly/askshakin
Виктор Дюбуа, @drkwng
Ссылки из поста:– https://developers.google.com/search/docs/advanced...
– https://yandex.com/support/webmaster/robot-working...
– https://en.wikipedia.org/wiki/IP_address_spoofing
– https://developers.google.com/search/apis/ipranges...
Источник новости https://t.me/shakinru/1407...
785 
