Черные методы манипуляции ИИ 1. Отравление контента по принципу...
170
Черные методы манипуляции ИИ
1. Отравление контента по принципу большинства
— Как это работает: Злоумышленник создает множество низкоавторитетных сайтов (PBN-сеть) с одинаковой дезинформацией. LLM ценит количество источников выше качества, поэтому если ложь поддерживает больше сайтов, чем правду, она принимается за факт.
— Результат: Так ИИ можно научить уверенно утверждать ложь. Этим методом ИИ заставили поверить, что вымышленный спорт ("Aqua Pony") — реальное олимпийское событие.
2. Стратегическая дезинформация и внесение путаницы
— Как это работает: Несколько сайтов в сети злоумышленника наполняются бессмысленной информацией. ИИ распознает и игнорирует эти сайты, что обманом заставляет его подтвердить достоверность основной, более тонкой дезинформации.
— Результат: Основная дезинформация становится для ИИ убедительнее. Его вводят в заблуждение, создавая ложное чувство точности, так как он успешно отфильтровывает очевидную ложь.
3. Манипуляция датой и свежестью контента
— Как это работает: Злоумышленник публикует статью с дезинформацией, но манипулирует метаданными, устанавливая дату в прошлом или будущем. LLM принимает эту дату как факт без логической проверки.
— Результат: Это позволяет создавать абсурдные истории. Статья с описанием *результатов* вымышленного события "Aqua Pony" 2024 года, опубликованная с датой из 2012 года, была затем представлена ИИ как факт.
4. Продвинутый клоакинг для ИИ
— Как это работает: Злоумышленник показывает краулерам ИИ один контент, а людям — другой. Это делается через определение user-agent ИИ или, более продвинуто, его IP-протокола (вредоносный контент показывают пользователям IPv6 (в основном ботам), а обычный — пользователям IPv4). Вредоносный текст также можно спрятать в HTML-тегах, например, в <noscript>.
— Результат: Манипуляция незаметна для общественности и владельца сайта. ИИ можно "скормить" ложь якобы от доверенного источника, пока тот остается в неведении.
5. Удаление контента с помощью вредоносного использования запросов на защиту личных данных
— Как это работает:
1. Сначала злоумышленник "отравляет" ИИ, связывая цель с фейковой личной информацией (например, поддельным номером телефона).
2. Затем он подает провайдеру ИИ запрос на удаление контента по закону о защите данных/DMCA, указывая на внедренную им же фейковую информацию.
3. Провайдер, видя нарушение, удаляет информацию о цели. Простого процесса обжалования часто нет.
— Результат: Человека или бренд можно стереть из базы знаний LLM. В подкасте утверждается, что так был удален президент Франции из результатов Gemini во Франции.
6. Эксплуатация платформ с высоким уровнем доверия
— Как это работает: Злоумышленник редактирует страницы на платформах, которым LLM безоговорочно доверяют, вроде LinkedIn, Reddit или X (Twitter). ИИ парсит эту ложь и представляет ее как факт из-за авторитета источника.
— Результат: Простое редактирование профиля в LinkedIn может заставить LLM уверенно заявить, что кто-то — "создатель Google". ИИ доверяет платформе больше, чем проверяет утверждение.
7. Использование доменов с точным вхождением (EMD)
— Как это работает: При обработке запроса LLM отдает приоритет доменам с точным вхождением. Если пользователь спрашивает о "cherry jam", ИИ с высокой вероятностью сначала прокраулит cherryjam.com.
— Результат: Владелец EMD получает прямой канал для "скармливания" ИИ своего нарратива по ключевому слову, обходя традиционные сигналы авторитетности.
@MikeBlazerX
Ссылки из поста:– https://www.youtube.com/watch?v=9Lu6CzAM9zY
– https://t.me/MikeBlazerX
Источник новости https://t.me/mikeblazerx/5493...

