Для того, чтобы обeзапаситься от краулеров ИИ, использующих...

339

Для того, чтобы обeзапаситься от краулеров ИИ, использующих контент на ваших сайтах в качестве датасетов для обучения нейронок, можете заблочить директивами robots.

Большие языковые модели (LLM) обучаются на данных, которые поступают из различных источников. Многие из этих наборов данных (датасетов) имеют открытый исходный код и свободно используются для обучения ИИ.

К таким наборам данных относятся:

— Common Crawl (отфильтрованный)

— WebText2

— Книги1

— Книги2

— Википедия

Первые два из них основаны на просмотре Интернета!

WebText2 - это частная база данных OpenAI, созданная путем просмотра ссылок с Reddit, которые имеют три апвоута.

Одним из наиболее часто используемых наборов данных, состоящих из интернет-контента, является набор данных Common Crawl, созданный некоммерческой организацией Common Crawl.

Данные Common Crawl поступают от бота, который сканирует весь Интернет.

Данные скачиваются организациями, желающими их использовать, а затем очищаются от спамерских сайтов и т. д.

Название бота Common Crawl - CCBot.

Строка CCBot User-Agent имеет следующий вид:

CCBot/2.0

Добавьте следующее в ваш файл robots.txt, чтобы заблокировать бота Common Crawl:

User-agent: CCBot

Disallow: /

CCBot также подчиняется директивам мета-тега robots nofollow.

Можете использовать это в метатеге robots:

Более подробно все описано в статье:

https://www.searchenginejournal.com/how-to-block-chatgpt-from-using-your-website-content/478384/