Антон Малявский Антон Малявский

Я блокирую сканирование моего сайта ИИ

30 декабря 2023 г.

Я не хочу, чтобы мой сайт (см. Колофон) использовался для обучения ИИ. Например, OpenAI для обучения своих языковых моделей использует бота GPTBot, а для плагинов ChatGPT-User. Бот заходит на сайт и сканирует его как это делает, например поисковый робот.

robots.txt  Ссылка на этот раздел

Чтобы запретить боту сканировать сайт, нужно запретить ему вход. Для этого я создал файл robots.txt и добавил в него следующие строки:

TXT
 1User-agent: *
 2Allow: /
 3
 4User-agent: GPTBot
 5Disallow: /
 6
 7User-agent: ChatGPT-User
 8Disallow: /
 9
10User-agent: Google-Extended
11Disallow: /
12
13User-agent: CCBot
14Disallow: /

К сожалению, пока невозможно защититься от Search Generative Experience, потому что закрытие сайта для него означает закрытие сайта для Googlebot.

Вот, что об этом написано в статье:

У меня есть плохие новости, если вы пытаетесь заблокировать Google Search Generative Experience (SGE) от сканирования вашего сайта… Вы не можете заблокировать SGE, не полностью блокируя Googlebot. Вам придется заблокировать Googlebot от сканирования вашего контента (например, с помощью директивы robots.txt), если вы не хотите, чтобы Google использовал ваш контент для обучения SGE. Или вы можете использовать метатег robots nosnippet, чтобы помешать Google отображать контент вашего сайта в результатах SGE. К сожалению, использование этого мета-тега также не позволит Google отображать фрагменты текста или предварительный просмотр видео в результатах поиска. Я искренне надеюсь, что Google пересмотрит этот шаг и позволит веб-мастерам блокировать SGE независимо от Googlebot в будущем.

Мета-теги  Ссылка на этот раздел

Для блокировки Bing Chat нужно добавить два мета-тега на сайт:

HTML
1<meta name=”robots” content=”nocache”>
2<meta name=”robots” content=”noarchive”>

Видимо, тег nocache используется только Bing. Использование мета-тега noarchive запретит Google хранить архивную копию страницы

Вот, что написано на одном из сайтов, где перечисляются мета-теги:

Если вы не укажете это значение, Google может показать кэшированную копию how-i-block-ai вашей страницы, которую поисковики могут увидеть в результатах поиска.

См. также  Ссылка на этот раздел

Подробнее об используемых инструментах, технологиях и принципах, лежащих в основе пространства можно прочитать на странице колофон.

Источники  Ссылка на этот раздел

Есть что сказать? Напишите мне!
Комментировать по почте
Понравилось? Подпишитесь на меня!
RSS Телеграм