SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чатыпривет всем, шок тема


привет всем,

шок тема

Появились сообщения, что можно успешно парсить сайты, которые жестко закрыты от скрейпинга. Делается это с помощью Google Mobile Friendly Testing tool и Rich Results Test. Особенностью их работы является то, что они запросы идут как с обычного Googlebot.

На вопрос как быть с этой ситуаций Мюллер ответил в стиле "Ну а шо вы хотите?".

Также появились сообщения-предположения, что гугловские тулы используют другие IP чем обычный googlebot.

Но это не так:

Мы сделали несколько тестовых страниц и прошлись по ним инструментами и получили несколько IP. Если бы IP для тулов были отдельные - то они бы не встречались в логах в больших количествах, верно?

Пробив их по логам, мы получили миллионы запросов, что говорит о том, что эти IP используются и обычным googlebot.

Но между ними все таки есть разница.

Отличие состоит в заголовке HTTP_ACCEPT,

обычный googlebot передает строку 'text/html,application/xhtml+xml,application/signed-exchange;v=b3,application/xml;q=0.9,*/*;q=0.8'

testing tool: '*/*,application/signed-exchange;v=b3'

Как заблокировать тест тулы уже вопрос техники.

Как воспроизвести самому эксперимент:

у себя на сайте размещаете файл googlebot.php с содержимым

<?php

$headers = print_r($_SERVER, true);

file_put_contents('googlebot-headers.txt', $headers."\n\n",FILE_APPEND);

?>

<!DOCTYPE html>

<html lang="en">

<head>

<meta charset="UTF-8">

<title>Googlebot testing tool</title>

</head>

<body>

<h1>This page simply does nothing (almost)</h1>

<?if($_SERVER['HTTP_ACCEPT'] == '*/*,application/signed-exchange;v=b3') echo '<p>Hi testing tool</p>'?>

</body>

</html>

ставите на него ссылку с главной и наблюдаете за файлом googlebot-headers.txt,

и также чекаете с testing tool, удобно добавлять к урлу метку https://site.com/googlebot.php?rich-test, https://site.com/googlebot.php?mobile-test и т.п.

Dislaimer: стоит учесть, что нет гарантий, что завтра заголовки будут такие же. Если для вас актуальна тема блокировки, нужно трекать каждый день заголовки и изменения в них, чтобы случаем не заблочить все.

PS. за наводку спасибо Анатолию Б.

Источник новости https://t.me/jetoctopus/130...