SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чаты​​В подкасте Search Off the Record от 4 ноября Мартин Сплитт...

 20  


​​В подкасте Search Off the Record от 4 ноября Мартин Сплитт довольно подробно рассказал, как Google обрабатывает канонизацию - определяет дубли страниц и выбирает каноничную. Ниже немного адаптированный перевод высказываний Мартина по теме:

“Сначала нужно обнаружить дубликаты, сгруппировать их вместе и отметить, что эти страницы дублируют друг друга. Затем для всех них нужно найти страницу лидера.

И то, как мы это делаем, возможно, так делают большинство людей и другие поисковые системы - сводят контент к хэшу или контрольной сумме, а затем сравнивают контрольные суммы. Это намного проще, чем сравнивать, например, три тысячи слов.

Итак, мы сокращаем содержание до контрольной суммы, потому что не хотим сканировать весь текст и потому что это просто не имеет смысла - это требует больше ресурсов, а результат будет примерно таким же. Мы вычисляем несколько видов контрольных сумм для текстового содержимого страницы, а затем сравниваем их.”

На вопрос обнаруживает ли такой метод только точные дубли или частичные тоже? Мартин ответил:

“У нас есть несколько алгоритмов, которые пытаются обнаружить и не учитывать шаблонную часть страниц. Так, например, мы исключаем навигацию из расчета контрольной суммы, убираем нижний колонтитул. Тогда у нас остается то, что мы называем центральным элементом, то есть центральное содержимое страницы, что-то вроде самой сути страницы.

После вычисления и сравнения контрольных сумм, те, которые похожи между собой (сильно или частично) мы объединяем в дублирующий кластер.”

Далее по словам Мартина, необходимо выбрать один документ из кластера, который и будет показываться в результатах поиска:

“Но вычислить какая из них будет ведущей в кластере не так просто. Есть случаи, когда даже людям будет сложно определить, какая именно страница должна отображаться в результатах поиска. Мы используем более двадцати сигналов, чтобы решить, какую страницу выбрать как каноническую из дублирующего кластера. Большинство из вас, вероятно, может догадаться, какие это сигналы.

Очевидно, что один из них - это содержание страницы. Но это могут быть и другие сигналы: у какой страницы более высокий PageRank, на каком протоколе страницы (http или https), включена ли страница в карту сайта, перенаправляется ли на другую страницу, проставлен ли атрибут rel=canonical… Каждый из этих сигналов имеет свой вес, а для подсчета весовых коэффициентов мы используем машинное обучение.

После сравнения всех сигналов для всех пар страниц, мы приближаемся к фактическому определению канонической.”

🔗 Полная стенограмма прошедшего подкаста: https://goo.gle/sotr009-transcription

Ссылки из поста:
https://telegra.ph/file/35b955034a9379bacbc78.jpg

Источник новости https://t.me/alaevseo/239...