Каково происхождение голосов, используемых в моделях искусственного интеллекта?

Все об искусственном интеллекте

Все о технологиях

Искусственный интеллект — одна из самых обсуждаемых тем сегодня, и сила, которой обладают определенные платформы, и их возможности становятся все более впечатляющими, уже являясь чрезвычайно популярной технологией. Среди них голоса искусственного интеллекта вызывают восхищение, но также и вопрос: как эти голоса генерируются, клонируются и даже имитируют человеческие интонации и выражения?

Читайте также:

Голоса искусственного интеллекта являются результатом передовых нейронных сетей, созданных с помощью методологии глубокого обучения, позволяющей искусственно создавать голоса, которые захватывают основные образцы человеческой речи. Процесс включает в себя анализ огромных объемов данных, в том числе бесчисленных часов аудиозаписи человеческой речи, для определения вокальных характеристик, определяющих то, как люди говорят. Благодаря подробному обучению и глубокому анализу нейронные сети развились до такой степени, что способны воспроизводить тонкости и интонации речи с поразительной точностью.

Принцип работы прост: при вставке текста для произнесения ИИ обрабатывает его и объединяет с ранее упомянутой базой данных, содержащей речевое поведение, для создания соответствующего выходного звука.

По мере того, как все больше данных поступает в ИИ, алгоритм совершенствуется и становится более опытным в реалистичном воспроизведении речи. Вот почему становится настолько обычным и, казалось бы, простым буквально клонировать голоса известных певцов и актеров, поскольку существует бесчисленное количество часов голосового контента от этих людей из-за их разоблачения.

Несмотря на то, что создана сложная база данных, тонкость интонаций человеческого голоса в определенные моменты времени все еще не воспроизводится на 100% естественным образом голосами искусственного интеллекта.

Голоса на португальском

Поскольку эти голоса искусственного интеллекта генерируются базой данных, естественно, что коллекция, доступная на английском языке, значительно обширна, учитывая количество контента, существующего на этом языке. С другой стороны, языки, на которых меньше говорят в мире, как правило, требуют меньше инвестиций в исследования и меньше ресурсов для изучения, например, португальский.

Изображение: Вери/Shutterstock

Однако исследователи из известного Центра искусственного интеллекта USP (C4AI) добились значительных успехов. Представляем CORAA (Корпус аннотированных аудиозаписей) ASR, первый аудиобанк на бразильском португальском языке, предназначенный для автоматического распознавания и синтеза спонтанных речей, таких как интервью, разговоры и неформальные заявления.

Создание банка, результат сотрудничества нескольких университетов. Хотя все задействованные исследователи являются бразильцами, в основу исследования легли международные модели искусственного интеллекта.

Текущее исследование проводилось в Центре искусственного интеллекта USP в Сан-Карлосе, где более 60 научных сотрудников активно участвовали в проекте, каталогизируя и анализируя голоса. Эти голоса уже существовали на основе предыдущих лингвистических исследований и были адаптированы для использования в вычислительных задачах, таких как распознавание речи.

Аудиоколлекция охватывает несколько источников, в том числе Museu da Pessoa, а также другие аудиобазы из учебных центров, расположенных в разных штатах Бразилии. Однако следует отметить, что в настоящее время материал используется исключительно в академических целях, однако существует возможность его доступности в будущем компаниями на рынке труда, внедряющими свободное ПО, то есть не преследующими коммерческих целей.

Смотрели новые видео на YouTube от Olhar Digital? Подписывайтесь на канал!

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *