В свете максимального интереса к ChatGPT, зарубежные...
226
В свете максимального интереса к ChatGPT, зарубежные веб-мастера переживают и не хотят, чтобы контент их сайтов использовался для обучения.
Для обучения GPT-3 (и GPT-3.5) используются определенные наборы данных, среди которых есть краулинг (сканирование сайтов).
Я знаю, что вам не интересно, что к чему и почему, поэтому сразу к сути:
- Есть бот, которого зовут Common Crawl (CCBot).
- CCBot, как и все порядочные боты, следует правилам из robots.txt.
- Так что вы можете заблокировать сканирование своего сайта.
- Для этого надо добавить в файл robots.txt две строки:
User-agent: CCBot
Disallow: /
- Или можно использовать meta robots на страницах:
<meta name="CCBot" content="noindex nofollow">
Надо иметь в виду, что это рекомендации из не официальных источников, так что все может однажды измениться.
А если сайт уже был просканирован, собранные данные никак нельзя удалить.
Проклятые капиталисты 👊🏻
– https://telegra.ph/file/cde2e945e4b482c9c0bb4.jpg
Источник новости https://t.me/alaevseo/490...