Антон Малявский Антон Малявский

Я блокирую сканирование моего сайта ИИ

30 декабря 2023 г.

Я не хочу, чтобы мой сайт (см. Колофон ) использовался для обучения ИИ . Например, OpenAI для обучения своих языковых моделей (см. GPT-3.5 и GPT-4 ) использует бота GPTBot , а для плагинов ChatGPT-User . Бот заходит на сайт и сканирует его как это делает, например поисковый робот .

robots.txt   Ссылка на этот раздел

Чтобы запретить боту сканировать сайт, нужно запретить ему вход. Для этого я создал файл robots.txt и добавил в него следующие строки:

User-agent: *
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

К сожалению, пока невозможно защититься от Search Generative Experience , потому что закрытие сайта для него означает закрытие сайта для Googlebot .

Вот, что об этом написано в статье :

У меня есть плохие новости, если вы пытаетесь заблокировать Google Search Generative Experience (SGE) от сканирования вашего сайта… Вы не можете заблокировать SGE, не полностью блокируя Googlebot . Вам придется заблокировать Googlebot от сканирования вашего контента (например, с помощью директивы robots.txt), если вы не хотите, чтобы Google использовал ваш контент для обучения SGE. Или вы можете использовать метатег robots nosnippet , чтобы помешать Google отображать контент вашего сайта в результатах SGE. К сожалению, использование этого мета-тега также не позволит Google отображать фрагменты текста или предварительный просмотр видео в результатах поиска. Я искренне надеюсь, что Google пересмотрит этот шаг и позволит веб-мастерам блокировать SGE независимо от Googlebot в будущем.

Мета-теги  Ссылка на этот раздел

Для блокировки Bing Chat нужно добавить два мета-тега на сайт:

<meta name=”robots” content=”nocache”>
<meta name=”robots” content=”noarchive”>

Видимо, тег nocache используется только Bing . Использование мета-тега noarchive запретит Google хранить архивную копию страницы

Вот, что написано на одном из сайтов, где перечисляются мета-теги :

Если вы не укажете это значение, Google может показать кэшированную копию how-i-block-ai вашей страницы, которую поисковики могут увидеть в результатах поиска.

См. также  Ссылка на этот раздел

Подробнее об используемых инструментах, технологиях и принципах , лежащих в основе пространства можно прочитать на странице колофон .

Источники  Ссылка на этот раздел

Есть что сказать? Напишите мне!
Комментировать по почте
Понравилось? Подпишитесь на меня!
RSS ТелеграмМастодонт