Я блокирую сканирование моего сайта ИИ
Я не хочу, чтобы мой сайт (см. Колофон) использовался для обучения ИИ. Например, OpenAI для обучения своих языковых моделей использует бота GPTBot, а для плагинов ChatGPT-User. Бот заходит на сайт и сканирует его как это делает, например поисковый робот.
robots.txt
Чтобы запретить боту сканировать сайт, нужно запретить ему вход. Для этого я создал файл robots.txt и добавил в него следующие строки:
1User-agent: *
2Allow: /
3
4User-agent: GPTBot
5Disallow: /
6
7User-agent: ChatGPT-User
8Disallow: /
9
10User-agent: Google-Extended
11Disallow: /
12
13User-agent: CCBot
14Disallow: /К сожалению, пока невозможно защититься от Search Generative Experience, потому что закрытие сайта для него означает закрытие сайта для Googlebot.
Вот, что об этом написано в статье:
У меня есть плохие новости, если вы пытаетесь заблокировать Google Search Generative Experience (SGE) от сканирования вашего сайта… Вы не можете заблокировать SGE, не полностью блокируя Googlebot. Вам придется заблокировать Googlebot от сканирования вашего контента (например, с помощью директивы robots.txt), если вы не хотите, чтобы Google использовал ваш контент для обучения SGE. Или вы можете использовать метатег robots nosnippet, чтобы помешать Google отображать контент вашего сайта в результатах SGE. К сожалению, использование этого мета-тега также не позволит Google отображать фрагменты текста или предварительный просмотр видео в результатах поиска. Я искренне надеюсь, что Google пересмотрит этот шаг и позволит веб-мастерам блокировать SGE независимо от Googlebot в будущем.
Мета-теги
Для блокировки Bing Chat нужно добавить два мета-тега на сайт:
1<meta name=”robots” content=”nocache”>
2<meta name=”robots” content=”noarchive”>Видимо, тег nocache используется только Bing. Использование мета-тега noarchive запретит Google хранить архивную копию страницы
Вот, что написано на одном из сайтов, где перечисляются мета-теги:
Если вы не укажете это значение, Google может показать кэшированную копию how-i-block-ai вашей страницы, которую поисковики могут увидеть в результатах поиска.
См. также
Подробнее об используемых инструментах, технологиях и принципах, лежащих в основе пространства можно прочитать на странице колофон.