‼️ Методы ранжирования Google (слив) - часть1

161

Очень много информации о ранжировании Гугла дает судебный процесс над оным. Вот, например, февральский допрос некоего инженера Гугла, проливающие свет на архитектуру их системы ранжирования. Основные мысли таковы:

1️⃣ "Ручная Настройка" (Hand Crafting) доминирует:

Подавляющее большинство сигналов, за исключением LLM-ориентированных RankBrain и DeepRank, создаются и калибруются инженерами вручную. Процесс включает анализ данных, применение сигмоидных функций и определение пороговых значений (thresholds). Это обеспечивает прозрачность для отладки и позволяет Google быстро реагировать на проблемы.

2️⃣ Фундаментальные ABC-сигналы и Topicality (T*):

🟢A (Anchors): Ссылки, указывающие с одной страницы на другую.

🟢B (Body): Термины в контенте документа.

🟢C (Clicks): Исторически – длительность пребывания пользователя на странице после перехода из SERP.

Эти три "сырых" сигнала являются ключевыми компонентами Topicality (T*) – базовой оценки релевантности документа запросу. T* описывается как "старая школа" Information Retrieval (IR) метрик. Активная разработка T* велась до примерно 5 лет назад.

3️⃣ Navboost: Отмечен как второй значимый сигнальный проект

4️⃣ "Кривые" Ранжирующих Сигналов (Ranking Signal Curves):

Инженеры Google строят и используют "кривые" для каждого уровня сигналов. Это позволяет тонко настраивать их поведение и чувствительность. Такая подгонка кривых (curve-fitting) позволяет модифицировать реакцию сигналов на граничные случаи (edge cases) и адаптироваться, например, к вызовам, связанным с общественным вниманием или медийными событиями.

5️⃣ Качество (Q*) – Page Quality: Q* (качество страницы, отражающее доверие/авторитетность) – невероятно важный сигнал, который, в основном, является статическим для сайта и не привязан к конкретному запросу (хотя есть исключения, когда запрос может влиять на интерпретацию качества). PageRank используется как один из входных данных для оценки Quality.

6️⃣ eDeepRank: LLM-система (использует BERT, трансформеры), которая пытается "разложить" сигналы на основе больших языковых моделей на более прозрачные и понятные компоненты.

7️⃣ Индекс Поиска (Search Index): Определяется как инвертированный индекс, содержащий фактический просканированный контент (заголовки, тело документа). Сигналы, основанные на запросе (query-based signals), вычисляются в реальном времени, а не хранятся в индексе.

8️⃣ Пользовательские Данные (User-Side Data): Под этим понимаются данные о взаимодействии пользователей с интерфейсом (например, клики), а не контент, создаваемый пользователями (например, ссылки между страницами, созданные людьми, не считаются User-Side Data в этом контексте).

9️⃣ Tangram (ранее Tetris): Проект, инициированный HJ Kim, с целью применения базовых принципов поиска ко всем поисковым функциям и вертикалям (не только к 10 синим ссылкам).

Подчеркивается, что если конкуренты получат доступ к детальным данным (клики, URL, запросы, кривые сигналов, пороги), они смогут легко реконструировать высокоуровневые компоненты IR-оценки Google.

Выводы:

Несмотря на развитие LLM, "классические" IR-принципы и детальная ручная настройка сигналов инженерами остаются стержнем ранжирования Google. Понимание важности таких элементов, как качество контента (Body), ссылочный профиль (Anchors), пользовательское поведение (Clicks), а также общая авторитетность сайта (Q*), остается фундаментальным для успешного SEO.

#DrMax #SEO #Google

Ссылки из поста:
– https://www.justice.gov/atr/media/1398871/dl

Источник новости https://t.me/drmaxseo/810...

<< Вернуться на канал

17.05.2025 06:00