Meta запускает ИИ, который может копировать ваш голос с небольшим семплом

Все об искусственном интеллекте

Meta недавно анонсировала новый ИИ (искусственный интеллект), способный подражать голосам людей. Названный Voicebox, ему удается воссоздать чей-то голос из очень маленького образца: всего две секунды.

Для тех, кто торопится:

  • Meta анонсировала новый ИИ, способный эмулировать человеческий голос;
  • Названный Voicebox, он может воссоздать чей-то голос по образцу всего за две секунды;
  • Voicebox был обучен с использованием 50 000 часов предварительно записанных аудиозаписей из общедоступных книг на английском, французском, немецком, испанском, польском и португальском языках;
  • С одной стороны, новый инструмент Meta может быть полезен для решения проблем доступности и создания контента;
  • С другой стороны, Voicebox может нанести ущерб (например, посредством дипфейков).

При таком большом количестве материала пользователь уже получает выдержки, «сказанные» человеком, скопированные из текстовых команд. Новый ИИ Meta похож на VALL-E от Microsoft, представленный в январе 2023 года. Но, по словам компании Марка Цукерберга, его платформа мощнее.

В будущем многоцелевые модели генеративного ИИ, такие как Voicebox, смогут давать естественно звучащие голоса виртуальным помощникам и неигровым персонажам в метавселенной. Они могли бы позволить слабовидящим людям слышать письменные сообщения от друзей, прочитанные искусственным интеллектом их голосами, предоставить создателям новые инструменты для простого создания и редактирования звуковых дорожек и многое другое.

Мета

Voicebox был обучен с использованием 50 000 часов предварительно записанных аудиозаписей из общедоступных книг на английском, французском, немецком, испанском, польском и португальском языках. ИИ оптимизирует результаты на основе контекста выступлений, а также может добавлять небольшие фрагменты к треку без необходимости его полного воссоздания.

На странице искусственного интеллекта Facebook вы можете ознакомиться с демонстрационными примерами инструментов, выбранными компанией.

Что вы можете делать с Voicebox

(Изображение: раскрытие/цель)

С помощью нового искусственного интеллекта Meta вы можете делать следующее (по словам компании):

  • Синтез речи в контексте

Используя звуковой образец продолжительностью всего две секунды, Voicebox может сопоставить звуковой стиль и использовать его для преобразования текста в речь (и преобразования).

  • Редактирование речи и шумоподавление

Voicebox может воссоздать часть речи, прерванную шумом, или заменить неправильно произнесенные слова без необходимости перезаписывать всю речь.

Например, вы можете идентифицировать фрагмент речи, прерванный лаем собаки, вырезать его и указать Voicebox восстановить этот фрагмент. По словам Меты, это своего рода резина для редактирования аудио.

  • Передача многоязычного стиля

Когда пользователь получает образец чьей-либо речи и отрывок текста на английском, французском, немецком, испанском, польском или португальском языках, Voicebox может воспроизвести текст на любом из этих языков, даже если образец речи и текст находятся на разных языках.

По словам Мета, эта функция может быть использована в будущем, чтобы помочь людям общаться естественно и достоверно, даже если они не говорят на одном языке.

  • Разнообразная выборка речи

Изучив различные данные, Voicebox может генерировать «речь, более репрезентативную для того, как люди говорят в реальном мире» и на шести языках, перечисленных выше, говорится в сообщении компании.

Тем не менее, согласно Meta, Voicebox превосходит VALL-E в генерировании голоса из текста, имея возможность создавать отрывки быстрее и с меньшим количеством ошибок, чем конкурирующая модель Microsoft.

Кроме того, новый искусственный интеллект Meta будет лучше, чем YourTTS, поскольку он допускает меньше ошибок и воспроизводит искусственный звук, более похожий на настоящий.

Опасности этого типа ИИ

Говоря о дипфейках, такие инструменты, как Voicebox, могут нанести ущерб. В Бразилии, например, уже существуют мошеннические схемы, в которых смоделированные голоса используются для обмана жертв, выдавая себя за родственников и друзей.

С информацией о цели

Вы смотрели новые видео на YouTube цифрового взгляда? Подписывайтесь на канал!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *