Дубли PDF Я думаю многие знают или замечали, что PDF...

455

Дубли PDF

Я думаю многие знают или замечали, что PDF индексируются и ранжируются в Яндекс и Google.

Предположим у вас сетка частично пересекающихся по тематике сайтов, где часто публикуются всякие положения, материалы и другие официальные документы в формате PDF. При этом есть некий главный официальный сайт (например под образовательную лицензию).

Задача: выявить дубликаты и оставить в индексе только нужное.

Если дубли обычных страниц можно вычислить по пересечению контента, дублированию Title/H1/Description, то PDF-файлы не имеют таких параметров.

Как найти дубли и приоритизировать PDF

1) Выкачиваем все известные URL из Яндекс Вебмастера, Яндекс Метрики, Google Search Center, Google Analytics (со всех задействованных в процессе доменов).

2) Закидываем все уникальные URL в Screaming Frog SEO Spider. Парсим.

3) После завершения парсинга выбираем тип PDF и сортируем по Response Header: Content-Length (если файлы различаются по содержимому, то редко когда документы будут байт в байт равны).

4) Я выгружаю в Excel и применяю формулу , к примеру =СЧЁТЕСЛИ($D$2:$D$362;$D2) - для поиска количества повторов. Сортирую. Находим, что у нас более 1 раза имеет ту же длину контента. При необходимости открываем доки и сравниваем.

5) Чтобы определить приоритет, какой PDF более важен - смотрим на какой документ идет больше всего внутренних ссылок (Inlinks). Для этого как раз и выкачиваем все возможные URL.

Чем больше входящих ссылок на PDF, тем более важным можно его считать.

Если на документ нет входящих ссылок, то скорее всего на него были ранее ссылки (поэтому и попал в индекс/обход этот документ), но вероятно он уже неактуален.

6) Если у нас есть главный домен, то документ на нем будет приоритетным (например лицензионные документы).

7) Если есть сомнения - нужен ли в индексе данный документ - смотрим в Google Search Center > "Эффективность" > "За последние 16 месяцев" > "URL, содержащий" - тут водим путь к нашему доку. Смотрим есть ли показы в поиске и по каким фразам. Если у старого документа за 16 месяцев не было показов, зачем его держать в индексе? - закрываем!

Как закрыть PDF от индексации?

Заходим в .htaccess и прописываем:

Header set X-Robots-Tag "noindex"

</FilesMatch>

где Dogovor_Reg_forma - название вашего PDF файла. Можно прописать также абсолютный путь. Но как показывает практика, менеджеры могут переместить док в другую папку с тем де названием. Смена URL и еще +1 URL в обходе. Так что лучше закрывать с регуляркой, при условии что нет полезных документов с таким же названием (вхождением), но в других папках.

Кроме того опасность есть вероятность, что текст из PDF может использоваться на сайте - соответственно дублирование и потеря уникальности контента. Если контент из PDF используется на HTML странице - то лучше PDF закрыть от индексации.

Также можно применять 301 редирект дя перенаправления с дублей.

Такую же методику можно применить и к файлам Word и Excel.

А вы проводите анализ документов PDF, Word и Excel?

Источник новости https://t.me/soltykseo/5593...

<< Вернуться на канал

12.11.2021 07:39