Утечка раскрыла систему Firefly, которая пессимизирует сайты целиком
79
Утечка раскрыла систему Firefly, которая пессимизирует сайты целиком
Слитый protobuf от Google, QualityCopiaFireflySiteSignal, раскрывает архитектуру того, как Google автоматизирует обнаружение и пессимизацию сайтов за массовое злоупотребление контентом.
Эта система работает на уровне домена, оценивая паттерны по всему сайту, а не отдельные страницы, чтобы определить манипулятивный умысел и бесполезный выхлоп.
Теперь выживание зависит от того, чтобы понимать ее ключевые метрики и соответствовать им.
Логика системы строится на синтезе трех категорий сигналов: скорость публикации контента, оценка качества и удовлетворенность юзеров.
Скорость производства контента отслеживается через numOfUrlsByPeriods, который считает новые URL в 30-дневных окнах.
Резкий, драматический скачок этого показателя — главный флаг для потенциального абьюза.
Чтобы отличить легальное расширение от спама, Firefly сравнивает сырой рост URL с созданием высококачественного контента, который отслеживается через numOfArticlesByPeriods.
"Высококачественная" страница определяется по внутреннему скору (numOfArticles8 для страниц с оценкой >= 0.8), который, вероятно, берется из других моделей, таких как QualityNsrPQData, измеряющей contentEffort.
Большое расхождение между общим числом новых урлов и числом новых качественных статей — это мощный негативный сигнал.
Удовлетворенность юзеров — финальный валидатор, который измеряется напрямую через данные из системы NavBoost.
Критическая метрика — это отношение `dailyClicks` к `dailyGoodClicks`.
Большой объем кликов ничего не значит, если число "хороших кликов" непропорционально низкое.
Это дает мощный математический сигнал о неудовлетворенности юзеров в масштабе.
Эти данные напрямую соотносятся с политиками по спаму, такими как 'Thin Affiliation' и 'Doorway Abuse'.
Система также отслеживает манипуляции со свежестью контента, сравнивая latestFirstseenSec (когда краулер обнаружил) с latestBylineDateSec (дата публикации), и содержит специфические флаги риска, вроде numOfGamblingPages, для выявления потенциального абьюза репутации сайта.
https://www.hobo-web.co.uk/firefly/
@MikeBlazerX
Пушки — в @MikeBlazerPRO
Ссылки из поста:– https://t.me/MikeBlazerX
– https://t.me/tribute/app?startapp=sE4X
Источник новости https://t.me/mikeblazerx/6050...

