Что, если для обучения искусственного интеллекта не хватает человеческого контента? – Техноблог

Как лучшие предложения,
не застрял хвост

18 июля исследователи из Стэнфордского университета опубликовали статью о производительности ChatGPT. При оценке того, как инструмент работал в определенных категориях подсказок, был сделан вывод, что чат-бот ухудшился даже после обновления с модели GPT 3.5 до GPT-4.

Можно ли использовать ChatGPT для всего? (Изображение: Витор Падуа / )

Открытие удивляет. Ведь логика такова, что искусственный интеллект всегда учится, а значит, совершенствуется. Невозможно точно узнать, что вызвало ухудшение, но цель исследования — продемонстрировать необходимость оставаться внимательным к разработке больших языковых моделей (большие языковые моделиили LLM). Нельзя предполагать, что они всегда будут развиваться.

Выводы исследователей помогают проиллюстрировать потенциальные проблемы неизбирательного использования таких инструментов, как ChatGPT. Кажется, существует несоответствие между внедрением LLM и пониманием того, как они работают. Даже с галлюцинациями и предубеждениями ИИ часто воспринимается как магия, что создает риски для его пользователей.

не слишком доверяй

Мы уже подчеркивали здесь в Техноблог что ChatGPT врет, что даже не чувствует. Не помешает помнить: языковые модели этого типа работают с предсказанием слов, будучи очень компетентными в вычислении вероятности следующего элемента в предложении. Вы задаете вопрос, а вместе с ним и контекст; инструмент предсказывает лучшие слова, чтобы ответить на ваш вопрос.

Другими словами: ChatGPT отлично справляется с этим. Даже когда он делает это правильно, это связано с его способностью перечислять наиболее вероятные слова в данном контексте. Именно для этого и предназначен весь учебный материал по моделированию: чтобы вы могли лучше предсказывать.

Именно потому, что это механизм прогнозирования, в его ответах постоянно бывают ошибки. Он не запрашивает базу данных всех существующих знаний, а пытается угадать следующий термин. Не всегда удается. Отсюда так называемые галлюцинации, факты и источники, полностью выдуманные, потому что в этом контексте можно было бы сказать что-то в этом роде.

В ходе теста ChatGPT разработал закон об использовании мобильных телефонов в школах Санта-Катарины (Изображение: Репродукция/)

Учитывая это, становится ясно, почему так проблематично относиться к LLM как к гуру. Возможно, вы уже видели в Твиттере профили, обучающие тому, как зарабатывать деньги с помощью ChatGPT. Некоторые просят инструмент для бизнес-идей; другие, инвестиционные советы. Другие учат вас, как попросить ChatGPT создать вашу тренировку в тренажерном зале, избавляя от работы личного тренера.

Проблема, очевидно, в том, что инструмент создан не для этого, и высока вероятность того, что вы получите неверную информацию или «подсказку». Возможно, однажды у нас появится искусственный интеллект, способный на эти цели, но этот день не сегодня. ChatGPT даже не знает, о чем говорит.

Это, конечно, не мешает проводить эксперименты с текстами, генерируемыми инструментом. Несколько журналистских машин по всему миру уже объявили об использовании искусственного интеллекта, например, при создании новостей, несмотря на риски.

Случай с веб-сайтом CNET широко комментировался в начале года: тексты, сгенерированные ИИ, содержали просчеты; совсем недавно Gizmodo также попал в заголовки за искажение содержания в тексте, в котором перечислены фильмы Звездные войны в хронологическом порядке (список, составленный ИИ, был неверным).

Использование LLM в контексте журналистики оспаривается. Несмотря на то, что выступления многих руководителей указывают на использование этого инструмента в качестве помощи журналистам, многие профессионалы в этой области считают, что это приглашение к логике повышения производительности, основанной на количестве, а не на качестве.

Говоря о количестве, количество сайтов с дезинформацией, полностью сгенерированной ИИ, уже исчисляется сотнями, согласно опросу, проведенному организацией Newsguard. Кажется, цель состоит в том, чтобы генерировать тексты, которые хорошо ранжируются в Google. Результат: больше кликов и, следовательно, больше доходов от рекламы.

(Изображение: Unsplash/Джонатан Кемпер)

Злоумышленники, безусловно, будут рассматривать такие инструменты, как ChatGPT, как ярлык для создания все более и более проблемного контента. Но дело в том, что даже без задней мысли со стороны пользователя тексты, генерируемые LLM, часто содержат фактические ошибки и сфабрикованную информацию.

И, как мы обсуждали в Технокаст 297, даже самые внимательные профессионалы что-то упустят. Это неизбежно.

Как ИИ обучает ИИ?

Но есть факт: создавать контент через ChatGPT очень ДОСТУПНЫЙ. Таким образом, весьма вероятно, что мы будем видеть, что все больше и больше контента, созданного инструментами LLM, а не людьми, распространяется по Интернету.

Это может породить любопытную динамику. В конце концов, искусственный интеллект обучается на материалах, найденных в Интернете. В мире, где значительная часть текстов в сети создается искусственным интеллектом, языковые модели в конечном итоге будут опираться на материал, созданный ими самими.

Некоторые исследователи указывают, что это явление вызовет так называемую коллапс модели (коллапс модели). Используя самостоятельно созданный контент для узнать больше, эти модели будут давать менее полезный материал для пользователей. Другими словами: неразборчивое использование инструментов ИИ может навредить даже самим моделям.

Один из способов избежать коллапса — убедиться, что данные, которыми питаются модели, на 100 % созданы людьми. Это предполагает оплату доступа к книгам, статьям и новостям, чтобы получить качественный, проверенный материал.

Искусственный интеллект (Изображение: Pixabay/Геральт)

Однако есть препятствие: деньги. Контент, созданный людьми, стоит дорого, и компании, безусловно, предпочтут сэкономить. Поэтому мы уже говорим об обучении на синтетических данных. Это когда ИИ создает материал специально для обучения LLM. Есть даже стартапы, продающие эту технологию как услугу, как в этом отчете Финансовые времена.

Как мы видим, при разработке языковых моделей многое поставлено на карту. На данный момент лучше действовать осторожно. То есть: не просите ChatGPT сделать серию в спортзале.

ЧатGPTДезинформацияGPT-4Искусственный интеллектЖурналистикаМодель большого языка

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *