Код не позволяет ChatGPT собирать данные с веб-сайтов; Смотри как -

Все о ЧатGPT

Все о OpenAI

OpenAI, создатели ChatGPT, выпустили новый веб-краулер под названием GPPTot, предназначенный для обхода Интернета и сбора информации для обучения моделей искусственного интеллекта (ИИ). Однако была обнаружена единственная строка кода, предотвращающая доступ поисковых роботов к данным веб-сайта, что подчеркивает сложную взаимосвязь между отслеживанием данных, конфиденциальностью и проблемами авторского права.

Читать далее:

Что такое веб-сканер?

Поисковый робот — это автоматизированное программное обеспечение, которое сканирует Интернет, собирая информацию с веб-сайтов.
Он систематически исследует сеть, переходя по ссылкам со страницы на страницу.
Он извлекает текст, изображения, ссылки и другие элементы с посещенных страниц, собирая данные.
Используется поисковыми системами для индексации страниц, компаниями для мониторинга веб-сайтов и искусственным интеллектом для обучения моделей.
Поисковый робот начинает с начальных URL-адресов, извлекает ссылки, перемещается по страницам и сохраняет собранные данные.
Проблемы с конфиденциальностью и авторскими правами возникают из-за автоматического сбора информации.
Короче говоря, веб-краулер — это цифровой «исследователь», который сканирует Интернет для сбора данных с приложениями, варьирующимися от исследований до обучения искусственному интеллекту.

OpenAI учит, как запретить GPBTot собирать данные

О развертывании GPTCot и его подверженности блокировке сообщалось в нескольких публикациях, в том числе в Search Engine Journal, в понедельник. Этот веб-сканер работает, просматривая веб-сайты в поисках данных, подобно тому, как работают поисковые системы, такие как Google.

Хотя такое отслеживание необходимо для обучения моделей ИИ, оно вызвало споры о конфиденциальности и несанкционированном использовании данных.

OpenAI предпринял уникальный шаг, не только внедрив GPBTot, но и предоставив владельцам веб-сайтов метод предотвращения доступа к нему. Встраивая простую строку кода в файл robots.txt веб-сайта, разработчики могут запретить GPBTot собирать данные с их веб-сайта.

Шаг за шагом, чтобы предотвратить доступ из GPBTot

Ниже вы можете проверить, как запретить веб-сканеру ChatGPT доступ к вашему сайту. Информация была взята с веб-сайта OpenAI, и ее можно найти (на английском языке) здесь.

GPTBot
«GPBTot — это поисковый робот OpenAI, который можно идентифицировать по следующему пользовательскому агенту и строке», — говорится на веб-сайте OpenAI.
Токен пользовательского агента: GPTBot
Полная строка пользовательского агента: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Использование собранных данных
OpenAI также объясняет на своем веб-сайте, как он использует собранные данные: «Веб-страницы, просканированные с помощью пользовательского агента GPBTot, потенциально могут быть использованы для улучшения будущих моделей и отфильтрованы для удаления источников, требующих доступа через платный доступ, которые, как известно, собирают личную информацию. информацию (PII) или текст, нарушающий наши правила. Предоставление GPBTot доступа к вашему веб-сайту может помочь моделям ИИ стать более точными и улучшить их общие возможности и безопасность».
Как забанить GPBTot
Чтобы запретить GPBTot доступ к вашему сайту, вы можете добавить GPBTot в файл robots.txt вашего сайта:
Пользовательский агент: GPTBot
Запретить: /
Как разрешить пользовательский доступ
OpenAI также учит вас, как разрешить GPBTot доступ только к «определенным частям вашего веб-сайта», добавив токен GPTTot в файл robots.txt другим способом:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Вы смотрели новые видео на YouTube цифрового взгляда? Подписывайтесь на канал!

Код не позволяет ChatGPT собирать данные с веб-сайтов; Смотри как

Что такое веб-сканер?

OpenAI учит, как запретить GPBTot собирать данные

Шаг за шагом, чтобы предотвратить доступ из GPBTot

Laisser un commentaire

Annuler la réponse