привет всем, шок тема
привет всем,
шок тема
Появились сообщения, что можно успешно парсить сайты, которые жестко закрыты от скрейпинга. Делается это с помощью Google Mobile Friendly Testing tool и Rich Results Test. Особенностью их работы является то, что они запросы идут как с обычного Googlebot.
На вопрос как быть с этой ситуаций Мюллер ответил в стиле "Ну а шо вы хотите?".
Также появились сообщения-предположения, что гугловские тулы используют другие IP чем обычный googlebot.
Но это не так:
Мы сделали несколько тестовых страниц и прошлись по ним инструментами и получили несколько IP. Если бы IP для тулов были отдельные - то они бы не встречались в логах в больших количествах, верно?
Пробив их по логам, мы получили миллионы запросов, что говорит о том, что эти IP используются и обычным googlebot.
Но между ними все таки есть разница.
Отличие состоит в заголовке HTTP_ACCEPT,
обычный googlebot передает строку 'text/html,application/xhtml+xml,application/signed-exchange;v=b3,application/xml;q=0.9,*/*;q=0.8'
testing tool: '*/*,application/signed-exchange;v=b3'
Как заблокировать тест тулы уже вопрос техники.
Как воспроизвести самому эксперимент:
у себя на сайте размещаете файл googlebot.php с содержимым
<?php
$headers = print_r($_SERVER, true);
file_put_contents('googlebot-headers.txt', $headers."\n\n",FILE_APPEND);
?>
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Googlebot testing tool</title>
</head>
<body>
<h1>This page simply does nothing (almost)</h1>
<?if($_SERVER['HTTP_ACCEPT'] == '*/*,application/signed-exchange;v=b3') echo '<p>Hi testing tool</p>'?>
</body>
</html>
ставите на него ссылку с главной и наблюдаете за файлом googlebot-headers.txt,
и также чекаете с testing tool, удобно добавлять к урлу метку https://site.com/googlebot.php?rich-test, https://site.com/googlebot.php?mobile-test и т.п.
Dislaimer: стоит учесть, что нет гарантий, что завтра заголовки будут такие же. Если для вас актуальна тема блокировки, нужно трекать каждый день заголовки и изменения в них, чтобы случаем не заблочить все.
PS. за наводку спасибо Анатолию Б.
Источник новости https://t.me/jetoctopus/130...