Черные методы манипуляции ИИ 1. Отравление контента по принципу...

170

Черные методы манипуляции ИИ

1. Отравление контента по принципу большинства

— Как это работает: Злоумышленник создает множество низкоавторитетных сайтов (PBN-сеть) с одинаковой дезинформацией. LLM ценит количество источников выше качества, поэтому если ложь поддерживает больше сайтов, чем правду, она принимается за факт.

— Результат: Так ИИ можно научить уверенно утверждать ложь. Этим методом ИИ заставили поверить, что вымышленный спорт ("Aqua Pony") — реальное олимпийское событие.

2. Стратегическая дезинформация и внесение путаницы

— Как это работает: Несколько сайтов в сети злоумышленника наполняются бессмысленной информацией. ИИ распознает и игнорирует эти сайты, что обманом заставляет его подтвердить достоверность основной, более тонкой дезинформации.

— Результат: Основная дезинформация становится для ИИ убедительнее. Его вводят в заблуждение, создавая ложное чувство точности, так как он успешно отфильтровывает очевидную ложь.

3. Манипуляция датой и свежестью контента

— Как это работает: Злоумышленник публикует статью с дезинформацией, но манипулирует метаданными, устанавливая дату в прошлом или будущем. LLM принимает эту дату как факт без логической проверки.

— Результат: Это позволяет создавать абсурдные истории. Статья с описанием *результатов* вымышленного события "Aqua Pony" 2024 года, опубликованная с датой из 2012 года, была затем представлена ИИ как факт.

4. Продвинутый клоакинг для ИИ

— Как это работает: Злоумышленник показывает краулерам ИИ один контент, а людям — другой. Это делается через определение user-agent ИИ или, более продвинуто, его IP-протокола (вредоносный контент показывают пользователям IPv6 (в основном ботам), а обычный — пользователям IPv4). Вредоносный текст также можно спрятать в HTML-тегах, например, в <noscript>.

— Результат: Манипуляция незаметна для общественности и владельца сайта. ИИ можно "скормить" ложь якобы от доверенного источника, пока тот остается в неведении.

5. Удаление контента с помощью вредоносного использования запросов на защиту личных данных

— Как это работает:

1. Сначала злоумышленник "отравляет" ИИ, связывая цель с фейковой личной информацией (например, поддельным номером телефона).

2. Затем он подает провайдеру ИИ запрос на удаление контента по закону о защите данных/DMCA, указывая на внедренную им же фейковую информацию.

3. Провайдер, видя нарушение, удаляет информацию о цели. Простого процесса обжалования часто нет.

— Результат: Человека или бренд можно стереть из базы знаний LLM. В подкасте утверждается, что так был удален президент Франции из результатов Gemini во Франции.

6. Эксплуатация платформ с высоким уровнем доверия

— Как это работает: Злоумышленник редактирует страницы на платформах, которым LLM безоговорочно доверяют, вроде LinkedIn, Reddit или X (Twitter). ИИ парсит эту ложь и представляет ее как факт из-за авторитета источника.

— Результат: Простое редактирование профиля в LinkedIn может заставить LLM уверенно заявить, что кто-то — "создатель Google". ИИ доверяет платформе больше, чем проверяет утверждение.

7. Использование доменов с точным вхождением (EMD)

— Как это работает: При обработке запроса LLM отдает приоритет доменам с точным вхождением. Если пользователь спрашивает о "cherry jam", ИИ с высокой вероятностью сначала прокраулит cherryjam.com.

— Результат: Владелец EMD получает прямой канал для "скармливания" ИИ своего нарратива по ключевому слову, обходя традиционные сигналы авторитетности.

@MikeBlazerX

Ссылки из поста:
– https://www.youtube.com/watch?v=9Lu6CzAM9zY
– https://t.me/MikeBlazerX

Источник новости https://t.me/mikeblazerx/5493...

<< Вернуться на канал

12.08.2025 09:05