Эмбеддинги на пальцах Эмбеддинг — это список чисел...
Эмбеддинги на пальцах
Эмбеддинг — это список чисел (вектор), в котором закодирован смысл текста. Это не просто индекс, а полноценное смысловое представление.
Векторы — это наборы чисел [n1, n2, ..., nk], полученные с помощью специальных моделей (у OpenAI — text-embedding-3, у Google — text-embedding-004 и т.д.). Числа в них подобраны так, что тексты с похожим смыслом имеют близкие векторы.
Например, с ними работает такая арифметика:
[король] − [мужчина] + [женщина] ≈ [королева]
Еще более просто
Числа в эмбединге — это как в GPS. Широта и долгота по отдельности не говорят, что ты в Париже. Но вместе они указывают точку.
Так и с эмбеддингами: координаты слов «яблоко» и «луна» в смысловом пространстве всегда будут далеко друг от друга.
→ Если хотите копнуть глубже, в этом видео хорошо объясняется идея (там про RAG, но и про эмбеддинги тоже): https://www.youtube.com/watch?v=22tkx79icy4
В следующих постах я покажу, как я это использую в SEO задачах на практике.
Источник новости https://t.me/seokotenkov/579...
165 
