В прошлом месяце AI-краулеры сгенерировали 90% трафика моего...
109
В прошлом месяце AI-краулеры сгенерировали 90% трафика моего сайта, заставив меня заплатить $90 штрафа за превышение лимита данных, пишет Гергей Орос.
Именно тогда я достиг точки кипения:
Для контекста: это произошло с моим сайд-проектом TechPays, который посещает около 1000 пользователей в день (имеются в виду живые люди!), с ежемесячным исходящим трафиком около 30-40 ГБ.
Эти показатели оставались неизменными на протяжении нескольких лет.
Пока несколько месяцев назад не появились AI-краулеры!
Они начали генерировать всё больше и больше данных, осуществляя бессмысленный краулинг (повторный краулинг одних и тех же страниц ежедневно или даже ежечасно, краулинг пустых страниц и т.д.).
В прошлом месяце сайт впервые превысил лимит исходящего трафика в 500 ГБ — это был максимум, включенный в мой текущий тариф у хостинг-провайдера Render.
И этот тариф более чем разумен для данного проекта.
С этого момента мне пришлось платить по $30 за каждые дополнительные 100 ГБ данных: только за прошлый месяц это обошлось мне в $90.
И не было никаких признаков замедления роста трафика из-за этих краулеров (среди главных нарушителей были боты, идентифицирующие себя как Meta AI, ImagesiftBot, DotBot)
Я не хотел продолжать платить за обучение AI-краулеров — особенно учитывая, что объем данных продолжал расти, а все больше AI-краулеров открыто игнорировали robots.txt.
Сначала я пытался решить проблему, блокируя IP-адреса самых злостных ботов — а затем решил попробовать перенести мои нейм-серверы в Cloudflare, настроив прокси DNS-записей через их сервис (это означает, что домен резолвится на IP Cloudflare, Cloudflare проверяет запрос и решает, пересылать ли его на мои настоящие серверы), и включил блокировку AI-краулеров (вот эту)
Похоже, это сработало: ежемесячный исходящий трафик моего сайта вернулся к ~40 ГБ в месяц, снизившись с 800 ГБ!
На обычных посетителей это не должно повлиять — за исключением того, что Cloudflare иногда может проводить проверку на бота.
Это решение бесплатное и не создает привязки: я всегда могу сменить нейм-серверы, например, на серверы моего регистратора доменов или любые другие (я не хостю свои домены на Cloudflare, а просто использую их нейм-серверы)
Cloudflare явно субсидирует расходы на пропускную способность и функциональность блокировки ботов — и создает хорошее отношение к себе со стороны разработчиков, таких как я.
Я просто хочу, чтобы этот небольшой сайд-проект работал нормально и не подвергался все более агрессивным "атакам" AI-краулеров, за которые мне приходится платить увеличенные расходы на ресурсы (например, трафик, CPU и т.д.).
(В качестве бонуса я включил функцию Cloudflare "AI Labyrinth", которая использует AI-генерируемый контент, чтобы замедлить, запутать и потратить впустую ресурсы AI-краулеров и других ботов, не уважающих ограничения robots.txt. Это своего рода "месть"!)
@MikeBlazerX
– https://www.linkedin.com/feed/update/urn:li:activi...
– https://blog.cloudflare.com/declaring-your-aindepe...
– https://blog.cloudflare.com/ai-labyrinth/
– https://t.me/MikeBlazerX
Источник новости https://t.me/mikeblazerx/4927...