Деградация ответа нейросетей при перегрузе количества правил для...

105

Деградация ответа нейросетей при перегрузе количества правил для выполнения Для начала кра...

Деградация ответа нейросетей при перегрузе количества правил для выполнения

Для начала кратко разберу это исследование https://arxiv.org/html/2507.11538v1.

На рисунке показано, как нейросети деградируют в ответе с ростом количества требований в промте.

Требования там простые — написать деловой документ и вписать в него n определённых слов (задача вписывания ключевых слов). По вертикали — процент точности, по горизонтали — количество правил.

Исследование достаточно простое и выглядит правдоподобно, но его выводы зависят от деталей методологии.

Но вы можете заметить, что там старые модели. И задаться вопросом: "А хули нам это ваше старьё. Уже есть Gemini 3: я в него запихну 300 хитрых правил — и стану LLM дрессировщиком."

Не принимайте близко к сердцу. Это не про вас. Так ведь? Так..

Но, к сожалению, ChatGPT-5.2 и Gemini 3 pro не сильно нас приблизили к AGI и поэтому они также нихрена не будут выполнять все кучку разнородных правил.

Наглядный пример

Мне лень было делать строгий эксперимент, поэтому чисто для наглядности и подтверждения своих слов прогнал несколько тестов для себя и один пример покажу здесь.

Тем более это довольно ожидаемо: чем сложнее промт и чем больше в нём требований, тем быстрее деградирует соблюдение правил.

Суть теста: я составил 77 банальных правил для генерации текста, например: пиши всегда абзацы по 3 предложения; используй ровно 6 h2, 3 h3 под каждым h2 и так далее.

Gemini по этим правилам должен сделать текст, а проверка идёт через ChatGPT 5.2 Pro, чтобы лучше всё это проверить (самому мне конечно лень это проверять, поэтому берем модель побогаче для проверки).

Два примера:

🤡Даю задачу написать текст, выполнив только эти 77 правил: 16 нарушений — примеры нарушений https://skr.sh/sZ4xKCg1XDM

👋 Даю те же 77 правил, но теперь ещё прошу сделать анализ SERP перед написанием: 20 нарушений — https://skr.sh/sZ4af6q2QAO

Ну и так далее. Чем больше грузить LLM правилами и дополнительными задачами, тем хуже она будет их выполнять, так как ресурсы на размышления и удержание требований ограничены. При этом рост нарушений может быть связан не только с "ресурсами", но и с конфликтами требований и размыванием приоритетов.

К чему приводит непонимание этого

Приводит это всё к чудо-промтам, куда впихнуто бесконечное количество правил, которые звучат прикольно и "технически", но по факту их выполнение вы часто не проверите, а часть правил, скорее всего, не будет соблюдаться.

Что делать

Сегментировать задачи и делать промты на каждый сегмент и не пытаться сделать промты для AGI уровня "Ты SEO эксперт. Выведи мой сайт в ТОП, сделай комплексный аудит, собери семантику, а по пути еще продвинуть мою карточку Яндекс Бизнес, а когда будешь продвигать карточку в Яндекс Бизнес будь экспертом по локальному SEO, а потом стань клиентом, который оценивает карточку, если оценка работы не проходит порог в 4 балла из 5, то переделай, ну на последок включи режим агента, зайти на сайт конкурента и оставь там плохой отзыв".

Источник новости https://t.me/seokotenkov/637...

<< Вернуться на канал

16.12.2025 12:52