SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чаты​1. Как длина текстовых входных данных влияет на схожесть...

 68  


​1. Как длина текстовых входных данных влияет на схожесть, независимо от семантической релевантности:

— "Размерное смещение" - явление, при котором длина текстового входа влияет на рассчитанный показатель схожести (например, косинусное сходство) при сравнении с другими текстами через эмбеддинги, независимо от реальной семантической релевантности.

Это не архитектурный недостаток и не связано с простым повторением; скорее, более длинные тексты естественным образом склонны "говорить больше вещей" и охватывать более широкий спектр концепций.

Это приводит к тому, что соответствующие векторы эмбеддингов представляют более широкое семантическое пространство.

— Поскольку эти "распространенные" векторы охватывают больше семантического пространства, они имеют статистически более высокую вероятность иметь некоторую степень пересечения (что приводит к более высокой оценке схожести) с любым другим текстовым эмбеддингом, просто из-за этой увеличенной широты.

Эта базовая схожесть увеличивается с длиной.

— В статье это экспериментально демонстрируется с использованием датасета CISI.

Были рассчитаны средние косинусные сходства между парами текстов и обнаружено:

— Показатели схожести между предложениями были самыми низкими.

— Оценки схожести между документами были значительно выше.

— Оценки между искусственно объединенными (очень длинными) документами были самыми высокими.

Это ясно показывает, что средние оценки схожести увеличиваются по мере увеличения длины сравниваемых текстовых единиц.

2. Почему поисковые системы иногда возвращают длинные, едва релевантные документы вместо более коротких, точных соответствий вашему запросу:

— Поисковые системы, использующие текстовые эмбеддинги, часто ранжируют результаты на основе показателя схожести между эмбеддингом запроса и эмбеддингами потенциальных документов-совпадений.

Самый высокий показатель обычно представляется как лучший результат.

— Из-за размерного смещения очень длинный документ, даже если он только косвенно связан с запросом, может достичь обманчиво высокого показателя схожести.

Только его длина дает его эмбеддингу более высокую базовую схожесть с эмбеддингом запроса по сравнению с более короткими документами.

— Эта завышенная оценка для длинного документа может численно превзойти оценку более короткого, но гораздо более семантически точного и релевантного документа.

Система, отдавая приоритет числовой оценке, поэтому ранжирует длинный, менее релевантный документ выше.

— Схожесть эмбеддингов эффективно измеряет относительную схожесть (какой документ ближе в векторном пространстве среди доступных вариантов), но ненадежна для определения абсолютной релевантности (действительно ли этот документ является хорошим ответом?).

В статье прямо указывается, что нельзя установить фиксированный косинусный порог (например, > 0.75) для определения релевантности, потому что длинные, нерелевантные документы могут его преодолеть, а короткие, релевантные - нет.

3. Ограничения потенциальных решений:

— Попытка математически корректировать оценки на основе длины считается потенциально хрупкой и вряд ли будет надежной для разных датасетов.

— Хотя такие техники, как асимметричное кодирование запрос-документ, могут улучшить общую производительность поиска (например, снижая средние косинусы документ-документ), в статье показано, что это не устраняет значительно размерное смещение.

Разница в средней схожести между предложениями и полными документами осталась почти такой же (изменившись с 0.089 до 0.076), что указывает на сохранение эффекта длины.

— Ранкеры упоминаются как улучшающие точность, но их оценки также не являются по своей сути нормализованными для абсолютной релевантности пока.

Использование LLM для прямой оценки релевантности представлено как будущая возможность, требующая специальной тренировки или промптинга.

https://jina.ai/news/on-the-size-bias-of-text-embeddings-and-its-impact-in-search/

@MikeBlazerX

Ссылки из поста:
https://t.me/MikeBlazerX

Источник новости https://t.me/mikeblazerx/5008...