Дополню немного по косинусной близости эмбеддингов, чтобы лучше...
Дополню немного по косинусной близости эмбеддингов, чтобы лучше прояснить свою позицию
Где это хорошо
1. Из кучи релевантного и не релевантного найти релевантное, чтобы потом доранжировать это.
2. Найти синонимы поисковых запросов, близкие термины, чтобы их потом также доранжировать чем-то другим.
Где это плохо
1. Искать что-то релевантное, где и так все релевантно.
2. Оценивать релевантность больших фрагментов — типа страница к странице, вектор сайта к вектору семантики.
Косинусная близость ломается, когда данных слишком много, когда векторизуются большие фрагменты обо всем. Она хорошо работает для того, чтобы найти что-то "близкое и тематичное", но для более менее хорошей оценки релевантности нужно использовать доранжирование.
Можете продолжить в комментах, что вы считаете по семантическим косинусам 👇
Источник новости https://t.me/seokotenkov/696...
130 
