SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чатыСтраницы которые цитируются в AEO реально имеют лучшие...


Страницы которые цитируются в AEO реально имеют лучшие релевантные фрагменты и какими методами релевантности это можно определить эффективно в Яндекс и Google?

Для анализа взял две выборки:

1. ТОП-30

2. ТОП-10

С разделением на процитированные URL и не цитированные (внутри топа), учитываем квери фан аут и очищаем данные от url которые не дают чанки (видео, короткие посты в соц. сетях и так далее).

А дальше отвечаем на вопросы:

1. Страницы, которые цитируются в AEO, реально имеют лучшие релевантные фрагменты?

2. Если анализировать SERP и искать страницы с сильными фрагментами, какой метод релевантности выбирать: TF-IDF, BM25, token overlap, embeddings или cross-encoder?

Какие методы рассматриваем:

Semantic cosine — cosine-близость embedding поискового запроса и чанка страницы.

Cross-encoder rerank — локальная модель переоценивает пары query ↔ top-N semantic chunks и выбирает лучший чанк

Token overlap — долю токенов запроса, найденных в чанке

BM25 norm — BM25-like релевантность чанка к запросу с IDF и нормализацией длины

TF-IDF cosine — cosine-близость TF-IDF векторов запроса и чанка

😐 Тут сразу спойлер косинусная близость эмбеддингов чанков самый слабый метод, которые не показывает ничего.

Передаю право на ответ для ChatGPT 5.5 из IDE Codex:

Короткий ответ: да, цитируемые страницы чаще имеют более релевантные фрагменты. Но разница не огромная.

Это важно правильно интерпретировать. В топе выдачи большинство страниц уже неплохо релевантны запросу. Поэтому мы не видим разницу “релевантно против нерелевантно”. Мы видим более тонкую вещь: среди уже релевантных страниц AI чаще цитирует те, где есть чуть более точный фрагмент под намерение пользователя.

Лучше всего это видно через cross-encoder. В общем срезе цитируемые домены выигрывают примерно на +0.088 по шкале 0..1. Внутри ТОП-10 разрыв остаётся: около +0.068.

Это не “+8.8% релевантности”. Это плюс 0.088 пункта score. Но среди страниц, которые уже находятся в поисковом топе, такой разрыв выглядит вполне значимым.

По Google картина такая: внутри ТОП-10 лучше всего работает cross-encoder. Он даёт разницу около +0.058. TF-IDF и token overlap тоже дают сигнал, но слабее. А вот semantic cosine по embeddings почти не помогает: он даже слегка уходит в минус. Semantic cosine ловит примерный смысл, а нужно уметь отличать фрагмент, который действительно отвечает на запрос.

По Яндексу важнее учитывать Query Fan-Out. В общем ТОП-30 с учётом веера цитируемые домены выигрывают по cross-encoder, token overlap, TF-IDF и semantic. Но внутри ТОП-10 сигнал становится тоньше: лучше всего держится token overlap, потом cross-encoder. Semantic почти плоский.

Что это значит практически?

Если нужно быстро искать потенциально сильные страницы в SERP, я бы не ставил на один метод.

Мой порядок такой:

Cross-encoder — лучший метод для финальной оценки фрагмента.

TF-IDF и token overlap — хорошие простые сигналы, особенно когда важны точные формулировки запроса.

Embeddings cosine — хороший первичный фильтр для облегчения работы Cross-encoder, но слабый финальный аргумент.

Главный вывод исследования:

AI-цитирование связано не только с позицией сайта в выдаче. У процитированных страниц чаще есть более точный текстовый фрагмент под поисковое намерение. Но в ТОП-10 разница небольшая: все уже примерно релевантны, а цитируемые просто чуть лучше попадают в смысл и формулировку запроса.

Я потом запишу видосик на Ютуб где детальнее все расскажу. Пока выводы буду постить выводы без ухода прям в нюансы.

Вывод 1

Мой вывод по этой части исследования такой — AEO работает как обычный RAG поисковик с реранкером (cross-encoder пары запрос-чанк) по уже релевантной к запросам базе SERP.

Вывод 2

Не ебите себе мозг косинусной близость это очень слабый показатель релевантности, который обходит даже простое вхождение лемм из запросов. Я как то писал пост про то, что делал себе тестовый поисковичок https://t.me/seokotenkov/669 для курса по текстовой релевантности для классического поиска так там аналогично косинусная близость самая пососная штука для поиска релевантных документов и фрагментов страниц.

Источник новости https://t.me/seokotenkov/695...