Все о ЧатGPT
Все о OpenAI
OpenAI, создатели ChatGPT, выпустили новый веб-краулер под названием GPPTot, предназначенный для обхода Интернета и сбора информации для обучения моделей искусственного интеллекта (ИИ). Однако была обнаружена единственная строка кода, предотвращающая доступ поисковых роботов к данным веб-сайта, что подчеркивает сложную взаимосвязь между отслеживанием данных, конфиденциальностью и проблемами авторского права.
Читать далее:
Что такое веб-сканер?
- Поисковый робот — это автоматизированное программное обеспечение, которое сканирует Интернет, собирая информацию с веб-сайтов.
- Он систематически исследует сеть, переходя по ссылкам со страницы на страницу.
- Он извлекает текст, изображения, ссылки и другие элементы с посещенных страниц, собирая данные.
- Используется поисковыми системами для индексации страниц, компаниями для мониторинга веб-сайтов и искусственным интеллектом для обучения моделей.
- Поисковый робот начинает с начальных URL-адресов, извлекает ссылки, перемещается по страницам и сохраняет собранные данные.
- Проблемы с конфиденциальностью и авторскими правами возникают из-за автоматического сбора информации.
- Короче говоря, веб-краулер — это цифровой «исследователь», который сканирует Интернет для сбора данных с приложениями, варьирующимися от исследований до обучения искусственному интеллекту.
OpenAI учит, как запретить GPBTot собирать данные
О развертывании GPTCot и его подверженности блокировке сообщалось в нескольких публикациях, в том числе в Search Engine Journal, в понедельник. Этот веб-сканер работает, просматривая веб-сайты в поисках данных, подобно тому, как работают поисковые системы, такие как Google.
Хотя такое отслеживание необходимо для обучения моделей ИИ, оно вызвало споры о конфиденциальности и несанкционированном использовании данных.
OpenAI предпринял уникальный шаг, не только внедрив GPBTot, но и предоставив владельцам веб-сайтов метод предотвращения доступа к нему. Встраивая простую строку кода в файл robots.txt веб-сайта, разработчики могут запретить GPBTot собирать данные с их веб-сайта.
Шаг за шагом, чтобы предотвратить доступ из GPBTot
Ниже вы можете проверить, как запретить веб-сканеру ChatGPT доступ к вашему сайту. Информация была взята с веб-сайта OpenAI, и ее можно найти (на английском языке) здесь.
- GPTBot
«GPBTot — это поисковый робот OpenAI, который можно идентифицировать по следующему пользовательскому агенту и строке», — говорится на веб-сайте OpenAI.
Токен пользовательского агента: GPTBot
Полная строка пользовательского агента:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
- Использование собранных данных
OpenAI также объясняет на своем веб-сайте, как он использует собранные данные: «Веб-страницы, просканированные с помощью пользовательского агента GPBTot, потенциально могут быть использованы для улучшения будущих моделей и отфильтрованы для удаления источников, требующих доступа через платный доступ, которые, как известно, собирают личную информацию. информацию (PII) или текст, нарушающий наши правила. Предоставление GPBTot доступа к вашему веб-сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность».
- Как забанить GPBTot
Чтобы запретить GPBTot доступ к вашему сайту, вы можете добавить GPBTot в файл robots.txt вашего сайта:
Пользовательский агент: GPTBot
Запретить: / - Как разрешить пользовательский доступ
OpenAI также учит вас, как разрешить GPBTot доступ только к «определенным частям вашего веб-сайта», добавив токен GPTTot в файл robots.txt другим способом:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
Вы смотрели новые видео на YouTube цифрового взгляда? Подписывайтесь на канал!