Есть ли свой индекс у ChatGPT и какого он размера?
Есть ли свой индекс у ChatGPT и какого он размера?
Вообще не трогаем тему обучения моделей и ответ чисто из ее весов. Исключительно про поиск по базам URL.
Почему ChatGPT, а не Claude или Перплексити? Потому что для 80% населения земли AI = ChatGPT. И у него несравненная доля рынка с другими системами.
Что говорит о создании индекса:
- Поведение ботов OpenAI часто похоже на краулеры, которые обходят страницы сайта.
- Пересечение с Google выдачей падает. С BING пересечение давно крайне низкое.
Мини-эксперимент, который показывает, что ChatGPT использует сторонних SearchAPI провайдеров
Я взял супер редкий поисковый запрос — найди курсы по "продажи seo услуг", по которому явно должен быть мой сайт.
Я убедился заранее, что OpenAI боты не посещали эту страницу и по логике индекса они не должны были быть найдены — https://skr.sh/sbx4fNQwTl1. С момента создания нового сайта школы там стоял счетчик мониторинга визитов AI ботов, который трекает их по IP и User-Agent.
Но эта страница есть в Google https://skr.sh/sbxTfqMtwr0 в индексе.
Простое и логичное объяснение — GPT ходит в Google.
Далее нормальное исследование на 3 тысячах промтах
И недавно я спарсил несколько тысяч промптов через скрейпер чата и параллельно делал запросы в Google с тем же ГЕО, проверял мобильные и десктопные выдачи, учитывал fan out если он был у chatgtp.
Результаты пересечений Google∩ChatGPT получились на том же уровне, что получают практически все в своих исследованиях в последнее время. В зависимости от ГЕО, типа запроса — между 30-60%.
Мне это показалось достаточно интересным, что практически у всех исследователей пересечение получается в среднем 50%.
Дополнительные SearchAPI
Далее я начал экспериментировать еще больше с промптами, пробовал джелбейки, пока не получил промпт, который банальный, но он очень похож на то, что я получаю в парсингах ChatGPT поиска в чате.
Посмотрите скриншот — https://skrinshoter.ru/sbxUZef01jK. Сайты которые я там отметил, как Google — выдаются в Google SERP по тому же ГЕО.
В нем вырисовывается примерно такая логика поиска: выполнить поиск в Google, выполнить поиск в Wiki и Arxiv.org для сбора дополнительных источников
Если напарсить много промптов и потом посчитать, какие сайты чаще всего цитируются, то мы получим: Reddit, YouTube, Arxiv.org (если по промптам важны были исследования) и прочие сайты, у которых есть свой хороший поиск по ним.
Недавно смотрел сериал, где ГГ реально использует Reddit как поисковую систему, чтобы найти мнения людей по его проблемам. Испытал небольшой культурный шок.
Объяснение логики по сравнению с Google AIO
Если Google AIO идет просто в Google поиск и формирует ответы с него, то ChatGPT начинает использовать несколько поисковых систем для поиска информации. Скорее всего, похожее поведение и у Google AI Mode.
Выводы
Факт 1 — ≈50% выдачи пересекается с Google.
Факт 2 — ≈25-30% объясняется сторонними API.
В подтверждение собственного веб-индекса остается ≈25-30% URL, где я уверен, что часть объясняется ошибками исследований из-за черных ящиков, которые мы можем только предполагать, какая-то часть кэшем ранее спаршенных сайтов.
И как по мне самое простое объяснение тут такое: OpenAI наобещали ебучие золотые горы инвесторам, и им нужно участвовать в гонке мощностей для обучения ИИ. У них нет ресурсов, чтобы сейчас строить систему для аналога веб-индекса Google, так как это еще одна куча мощностей. Скорее, свой аналог индекса Google — это пока сайд-проект, который развивается фоном.
Ссылки из поста:– https://skr.sh/sbxTsuNDyPY
– https://skr.sh/sbx4fNQwTl1
– https://skr.sh/sbxTfqMtwr0
– https://skrinshoter.ru/sbxUZef01jK
– http://Arxiv.org/
Источник новости https://t.me/seokotenkov/699...
63 
