Тест на косинусное сходство, который оправдывает разбивку...
136
Тест на косинусное сходство, который оправдывает разбивку контента на части
Чтобы ответить на заявления, что разбивка на чанки — это развод, я провел простой тест, чтобы показать, как она влияет на релевантнсть, говорит Майк Кинг.
Я начал с одного абзаца, заточенного под два разных ключа: "machine learning" и "data privacy".
Когда я посчитал косинусное сходство между этим объединенным абзацем и каждым из ключевиков, результаты были 0.6481 и 0.6948 соответственно.
Затем я разделил этот контент на два отдельных, более сфокусированных абзаца — по одному на каждую тему.
Косинусное сходство для обоих абзацев выросло.
Это не фокус, а прямое отражение того, как работают эти системы.
Если мы принимаем, что релевантность измеряется сравнением векторного представления запроса с векторным представлением пассажей, то создание более сфокусированных пассажей логично улучшает этот показатель.
Цель — разбивать контент на мелкие, очень сфокусированные абзацы, которые системам легче извлечь и которые улучшают метрики релевантности.
По сути, это то же самое, что Гугл выкатил много лет назад под названием "индексация по пассажам".
Это был первый шаг от восприятия страницы как единого целого к пониманию ее как набора отдельных компонентов.
Нам стоит больше думать о разбивке с учетом верстки (layout-aware chunking), а не только о семантической, но основной принцип тот же: создавать отдельные, извлекаемые компоненты, которые соответствуют тому, как векторный поиск считает релевантность.
@MikeBlazerX
Ссылки из поста:– https://www.youtube.com/watch?v=ukpU-EfRtV4&t=2399...
– https://t.me/MikeBlazerX
Источник новости https://t.me/mikeblazerx/5783...

