Вскрытие SDK Google Discover: конспект доклада Артема Паклонского
Вскрытие SDK Google Discover: конспект доклада Артема Паклонского
Чтобы понять эти алгоритмы, перестаньте думать как SEOшник.
Передается от пользователя на серверы Гугла:
- информация об устройстве (платформа, версия ОС, язык)
- профиль интересов (куда кликал за 1/7/30 дней)
- уже просмотренные статьи
- телеметрия (действия и профиль пользователя, метаданные карточки) для обучения моделей
Передается от серверов Гугла пользователю:
- набор карточек
- рейтинг каждой карточки (score), определяющий порядок в ленте
- данные для сниппетов (ссылка, картинка, издание, текст-превью)
- срок жизни каждой карточки
- настройки A/B-тестов (в каких из ~150 участвует юзер)
- статус персонализации (Web&app activity и Discover personalization)
- расписание обновлений
В фиде содержится:
Panoptic - серверная система маркировки контент-пайплайнов
Source channel - код пайплайна, через который прошла карточка (например: 54 - геоновости, 95 - развлечения, 216 - YouTube)
Внутри каждого пайплайна свой алгоритм.
Приоритет извлечения:
Title: schema.org, og:title, twitter:title, HTML title
Image: og:image, twitter:image, og:image_secure_url
Publisher: schema.org. og:site_name, HTML author
Paywall: article:content_tier + isAccessibleForFree
Discover может скорректировать заголовок или полностью переписать его, а также убрать рубрики или название сайта.
Менять заголовок стоит в момент, когда трафик еще идет. Смена заголовка - это не кнопка буста, а скорее разблокировка, если изначальный заголовок не понравился Гуглу (Гугл знает паттерны, уменьшающие CTR и как только эти паттерны устраняются, показы возобновляются).
Существует клиентская индексация в дополнение к серверной, которая, к примеру, отправляет сигнал для обновления og:image при изменении или недоступности, а также обнаруживает paywall.
Есть флаг качества изображения; URL картинки не должен быть заблокирован в robots.txt.
NAIADES - классификатор контента, который мэтчит entity MIDs пользователя и контента.
Лента в Discover'е делится на кластеры, формируемые на основе разных пайплайнов, через которые прошли карточки. Один и тот же материал может попасть в несколько пайплайнов сразу.
moonstone - главный пайплайн, смешанный контент
neoncluster - персонализированный
geotargetingstories - локальные новости
mustntmiss - breaking news с наивысшим приоритетом
trendingugc - трендовый пользовательский контент
pCTR (Predicted Click-Through Rate) - прогнозируемый CTR, ядро системы ранжирования Google Discover.
Длинный просмотр статьи - когда пользователь пробыл на ней >= 10 секунд.
Ссылки из поста:– https://www.youtube.com/watch?v=FEIFsOj_Kew
Источник новости https://t.me/notjohnmu/2709...
149 
