Я блокирую сканирование моего сайта ИИ
Я не хочу, чтобы мой сайт (см. Колофон ) использовался для обучения ИИ . Например, OpenAI для обучения своих языковых моделей (см. GPT-3.5 и GPT-4 ) использует бота GPTBot , а для плагинов ChatGPT-User . Бот заходит на сайт и сканирует его как это делает, например поисковый робот .
robots.txt
Чтобы запретить боту сканировать сайт, нужно запретить ему вход. Для этого я создал файл robots.txt и добавил в него следующие строки:
User-agent: *
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
К сожалению, пока невозможно защититься от Search Generative Experience , потому что закрытие сайта для него означает закрытие сайта для Googlebot .
Вот, что об этом написано в статье :
У меня есть плохие новости, если вы пытаетесь заблокировать Google Search Generative Experience (SGE) от сканирования вашего сайта… Вы не можете заблокировать SGE, не полностью блокируя Googlebot . Вам придется заблокировать Googlebot от сканирования вашего контента (например, с помощью директивы robots.txt), если вы не хотите, чтобы Google использовал ваш контент для обучения SGE. Или вы можете использовать метатег robots nosnippet , чтобы помешать Google отображать контент вашего сайта в результатах SGE. К сожалению, использование этого мета-тега также не позволит Google отображать фрагменты текста или предварительный просмотр видео в результатах поиска. Я искренне надеюсь, что Google пересмотрит этот шаг и позволит веб-мастерам блокировать SGE независимо от Googlebot в будущем.
Мета-теги
Для блокировки Bing Chat нужно добавить два мета-тега на сайт:
<meta name=”robots” content=”nocache”>
<meta name=”robots” content=”noarchive”>
Видимо, тег nocache используется только Bing . Использование мета-тега noarchive запретит Google хранить архивную копию страницы
Вот, что написано на одном из сайтов, где перечисляются мета-теги :
Если вы не укажете это значение, Google может показать кэшированную копию how-i-block-ai вашей страницы, которую поисковики могут увидеть в результатах поиска.
См. также
Подробнее об используемых инструментах, технологиях и принципах , лежащих в основе пространства можно прочитать на странице колофон .