OpenAI, создатели ChatGPT, выпустили новый веб-краулер под названием GPPTot, предназначенный для обхода Интернета и сбора информации для обучения моделей искусственного интеллекта (ИИ). Однако была обнаружена единственная строка кода, предотвращающая доступ поисковых роботов к данным веб-сайта, что подчеркивает сложную взаимосвязь между отслеживанием данных, конфиденциальностью и проблемами авторского права.

Читать далее:

Что такое веб-сканер?

  • Поисковый робот — это автоматизированное программное обеспечение, которое сканирует Интернет, собирая информацию с веб-сайтов.
  • Он систематически исследует сеть, переходя по ссылкам со страницы на страницу.
  • Он извлекает текст, изображения, ссылки и другие элементы с посещенных страниц, собирая данные.
  • Используется поисковыми системами для индексации страниц, компаниями для мониторинга веб-сайтов и искусственным интеллектом для обучения моделей.
  • Поисковый робот начинает с начальных URL-адресов, извлекает ссылки, перемещается по страницам и сохраняет собранные данные.
  • Проблемы с конфиденциальностью и авторскими правами возникают из-за автоматического сбора информации.
  • Короче говоря, веб-краулер — это цифровой «исследователь», который сканирует Интернет для сбора данных с приложениями, варьирующимися от исследований до обучения искусственному интеллекту.

OpenAI учит, как запретить GPBTot собирать данные

О развертывании GPTCot и его подверженности блокировке сообщалось в нескольких публикациях, в том числе в Search Engine Journal, в понедельник. Этот веб-сканер работает, просматривая веб-сайты в поисках данных, подобно тому, как работают поисковые системы, такие как Google.

Хотя такое отслеживание необходимо для обучения моделей ИИ, оно вызвало споры о конфиденциальности и несанкционированном использовании данных.

OpenAI предпринял уникальный шаг, не только внедрив GPBTot, но и предоставив владельцам веб-сайтов метод предотвращения доступа к нему. Встраивая простую строку кода в файл robots.txt веб-сайта, разработчики могут запретить GPBTot собирать данные с их веб-сайта.

Шаг за шагом, чтобы предотвратить доступ из GPBTot

Ниже вы можете проверить, как запретить веб-сканеру ChatGPT доступ к вашему сайту. Информация была взята с веб-сайта OpenAI, и ее можно найти (на английском языке) здесь.

  1. GPTBot

    «GPBTot — это поисковый робот OpenAI, который можно идентифицировать по следующему пользовательскому агенту и строке», — говорится на веб-сайте OpenAI.
    Токен пользовательского агента: GPTBot
    Полная строка пользовательского агента: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

  2. Использование собранных данных

    OpenAI также объясняет на своем веб-сайте, как он использует собранные данные: «Веб-страницы, просканированные с помощью пользовательского агента GPBTot, потенциально могут быть использованы для улучшения будущих моделей и отфильтрованы для удаления источников, требующих доступа через платный доступ, которые, как известно, собирают личную информацию. информацию (PII) или текст, нарушающий наши правила. Предоставление GPBTot доступа к вашему веб-сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность».

  3. Как забанить GPBTot

    Чтобы запретить GPBTot доступ к вашему сайту, вы можете добавить GPBTot в файл robots.txt вашего сайта:
    Пользовательский агент: GPTBot
    Запретить: /

  4. Как разрешить пользовательский доступ

    OpenAI также учит вас, как разрешить GPBTot доступ только к «определенным частям вашего веб-сайта», добавив токен GPTTot в файл robots.txt другим способом:
    User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

Вы смотрели новые видео на YouTube цифрового взгляда? Подписывайтесь на канал!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *