‼️ Методы ранжирования Google (слив) - часть1
154
‼️ Методы ранжирования Google (слив) - часть1
Очень много информации о ранжировании Гугла дает судебный процесс над оным. Вот, например, февральский допрос некоего инженера Гугла, проливающие свет на архитектуру их системы ранжирования. Основные мысли таковы:
1️⃣ "Ручная Настройка" (Hand Crafting) доминирует:
Подавляющее большинство сигналов, за исключением LLM-ориентированных RankBrain и DeepRank, создаются и калибруются инженерами вручную. Процесс включает анализ данных, применение сигмоидных функций и определение пороговых значений (thresholds). Это обеспечивает прозрачность для отладки и позволяет Google быстро реагировать на проблемы.
2️⃣ Фундаментальные ABC-сигналы и Topicality (T*):
🟢A (Anchors): Ссылки, указывающие с одной страницы на другую.
🟢B (Body): Термины в контенте документа.
🟢C (Clicks): Исторически – длительность пребывания пользователя на странице после перехода из SERP.
Эти три "сырых" сигнала являются ключевыми компонентами Topicality (T*) – базовой оценки релевантности документа запросу. T* описывается как "старая школа" Information Retrieval (IR) метрик. Активная разработка T* велась до примерно 5 лет назад.
3️⃣ Navboost: Отмечен как второй значимый сигнальный проект
4️⃣ "Кривые" Ранжирующих Сигналов (Ranking Signal Curves):
Инженеры Google строят и используют "кривые" для каждого уровня сигналов. Это позволяет тонко настраивать их поведение и чувствительность. Такая подгонка кривых (curve-fitting) позволяет модифицировать реакцию сигналов на граничные случаи (edge cases) и адаптироваться, например, к вызовам, связанным с общественным вниманием или медийными событиями.
5️⃣ Качество (Q*) – Page Quality: Q* (качество страницы, отражающее доверие/авторитетность) – невероятно важный сигнал, который, в основном, является статическим для сайта и не привязан к конкретному запросу (хотя есть исключения, когда запрос может влиять на интерпретацию качества). PageRank используется как один из входных данных для оценки Quality.
6️⃣ eDeepRank: LLM-система (использует BERT, трансформеры), которая пытается "разложить" сигналы на основе больших языковых моделей на более прозрачные и понятные компоненты.
7️⃣ Индекс Поиска (Search Index): Определяется как инвертированный индекс, содержащий фактический просканированный контент (заголовки, тело документа). Сигналы, основанные на запросе (query-based signals), вычисляются в реальном времени, а не хранятся в индексе.
8️⃣ Пользовательские Данные (User-Side Data): Под этим понимаются данные о взаимодействии пользователей с интерфейсом (например, клики), а не контент, создаваемый пользователями (например, ссылки между страницами, созданные людьми, не считаются User-Side Data в этом контексте).
9️⃣ Tangram (ранее Tetris): Проект, инициированный HJ Kim, с целью применения базовых принципов поиска ко всем поисковым функциям и вертикалям (не только к 10 синим ссылкам).
Подчеркивается, что если конкуренты получат доступ к детальным данным (клики, URL, запросы, кривые сигналов, пороги), они смогут легко реконструировать высокоуровневые компоненты IR-оценки Google.
Выводы:
Несмотря на развитие LLM, "классические" IR-принципы и детальная ручная настройка сигналов инженерами остаются стержнем ранжирования Google. Понимание важности таких элементов, как качество контента (Body), ссылочный профиль (Anchors), пользовательское поведение (Clicks), а также общая авторитетность сайта (Q*), остается фундаментальным для успешного SEO.
#DrMax #SEO #Google
Ссылки из поста:– https://www.justice.gov/atr/media/1398871/dl
Источник новости https://t.me/drmaxseo/810...

