Meta Tool воссоздает голос человека за считанные секунды

Как лучшие предложения,
хвост не застрял

Meta объявила о разработке инструмента искусственного интеллекта, способного генерировать человеческую речь. Модель необходимо снабдить некоторыми фразами, записанными пользователем. После этого Voicebox позволяет создавать новые аудиозаписи из письменного текста. Сам Марк Цукерберг появился в клипе, опубликованном в Instagram, на хорошем португальском языке с очень кариока «с» в слове «все». Все сгенерировано ИИ.

В 2023 году основное внимание Meta будет сосредоточено на искусственном интеллекте (Изображение: Vitor Pádua/)

По данным цифрового конгломерата, всего 2 секунды аудиосэмпла достаточно, чтобы система смогла воспроизвести новые строки. Идея состоит в том, чтобы провести текст в речь чтобы избежать хлопот, связанных с перезаписью всего аудиоматериала.

Тем не менее, по словам компании, эта технология позволит слабовидящим людям слышать сообщения от друзей или то, что у неигровых игровых персонажей — знаменитых NPC — есть голос. Voicebox также может обеспечивать естественные звуки для голосовых помощников.

Посмотрите это в действии на видео ниже:

Простое редактирование контента

Еще один важный момент касается редактирования контента. В примере Цукерберг записывает звук, когда слышится звуковой сигнал. Инструмент, однако, умудряется «очищать» материал. В настоящее время существует профессиональное и другое любительское программное обеспечение с аналогичной функцией, поэтому еще неизвестно, как эта функция будет реализована в приложениях Meta.

Между прочим, компания не делала официальных заявлений о внедрении Voicebox в Instagram, WhatsApp или Facebook. На данный момент все говорит о том, что Цукерберг просто хочет продемонстрировать достижения компании в области генеративного ИИ. На данный момент это основное внимание, наряду с (долгосрочным) развитием технологий метавселенной.

Конкуренция тоже действует

Meta не одинока в исследовании и разработке генеративного ИИ для голоса. Объявление в эту пятницу напомнило мне о Vall-E, системе, представленной Microsoft в январе с предложением получать короткие аудиозаписи от говорящего человека для создания новых файлов.

Vall-E требуется только трехсекундный образец (Изображение: Disclosure/Microsoft)

Apple, с другой стороны, представила функцию под названием Personal Voice на WWDC 2023, состоявшейся на прошлой неделе. Это будет в iOS 17. В рамках усилий по доступности пользователи смогут читать вслух сценарий предложений. После этого система iPhone воссоздаст синтезированный голос человека. Однако технология Apple требует около 15 минут исходной записи.

С информацией: Meta, Facebook Research и 9to5 Mac

AppleFacebookInstagramInteligência ArtificialiPhoneLLMМарк ЦукербергMetaMicrosoftPortuguêsWhatsAppiOSWWDC

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *