Совет по краулингу сайтов, которые обычно блокируют ваши запросы
214
Совет по краулингу сайтов, которые обычно блокируют ваши запросы
Улучшаем краулинг сайтов, использующих Cloudflare, Akamai и подобные системы защиты.
Вот что нужно сделать для УЛУЧШЕНИЯ краулинга таких сайтов...
1. Зайдите на сайт, который хотите прокраулить, через браузер
2. На стартовой точке краулинга откройте DevTools (обычно F12), перейдите на вкладку APPLICATION, затем в разделе STORAGE слева нажмите Cookies - найдите основной сессионный куки
3. Скопируйте строку куки (можно также скопировать содержимое куки, отправить его в chatGPT/gemini и попросить построить строку куки)
4. В Screaming Frog идите в CONFIGURATION > Crawl Config > HTTP Header
5. В правом нижнем углу нажмите + ADD, в селекторе для новой записи выберите COOKIE и в текстовое поле справа вставьте строку куки
6. Теперь, когда мы инициировали сессию через браузер, используем ТОТ ЖЕ юзер-агент, что и наш браузер (поддерживая сессию активной) - в DEVTOOLS (F12) нажмите NETWORK и обновите страницу, затем в левой секции под NAME кликните на название сайта, увидите HEADERS, PREVIEW, RESPONSE и т.д. Нажмите HEADERS, прокрутите вниз и скопируйте USER AGENT
7. В Screaming Frog перейдите в USER-Agent, измените юзер-агент на CUSTOM и вставьте в поле HTTP request user agent
8. Вернитесь в HTTP Header в Screaming Frog и используйте следующие значения:
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Encoding: gzip, deflate, br
Cache-Control: no-cache
Pragma: no-cache
Accept-Language: en-US,en;q=0.5
Connection: keep-alive
Upgrade: 1
Примечание!
У вас могут быть не все эти заголовки - чтобы добавить их, нажмите + ADD и используйте выпадающий селектор.
9. В Screaming Frog перейдите в SPEED, измените MAX THREADS на 1 и поставьте галочку Limit URL/s на 0.1 (да, медленно, но нужно эмулировать реальный браузинг - можно экспериментировать, но легко спровоцировать Cloudflare и подобные системы)
10. Перейдите в SPIDER > Crawl и настройте как на моих скриншотах - по сути, не нужно ставить галочки IMAGES, MEDIA, CSS для краулинга и хранения, как и SWF.
Это влияет на рендеринг в Screaming Frog и проверки IMG ALT и т.д. - но это низкоприоритетные вещи, о которых можно не беспокоиться.
11. Перейдите в SPIDER > Extraction - это опционально, но БОЛЬШИНСТВУ сеошников не нужно беспокоиться о:
FORMS, Page Size, Hash Value, Text to Code Ratio, Meta Keywords - так что снимите эти галочки
12. Нажмите SPIDER > Rendering и измените рендеринг на Javascript, я также предпочитаю менять пресеты WINDOW SIZE на DESKTOP
13. SPIDER > Advanced - убедитесь, что Always Follow Redirects и Always Follow Canonicals ОТКЛЮЧЕНЫ, а RESPECT HSTS Policy ВКЛЮЧЕН
14. Раздел Robots.txt - убедитесь, что выбран RESPECT ROBOTS.TXT
Это может УЛУЧШИТЬ КРАУЛИНГ сайтов, которые обычно сложно краулить, но это не панацея.
Больше скриншотов тут.
@MikeBlazerX

– https://x.com/foley_seo/status/1883163644340355271
– https://www.linkedin.com/posts/daniel-foley-assert...
– https://t.me/MikeBlazerX
Источник новости https://t.me/mikeblazerx/4616...

