Бразилец Джонатас Гросман использовал свое любопытство и «занудство», переживая деликатный момент в своей жизни — лечение рака легких, — чтобы создать то, что вызвало лихорадку во всем мире.
Доктор компьютерных наук создал модель транскрипции, которая превосходит, например, Facebook, Google и Microsoft.
Читать далее:
Модель была загружена более 71,9 миллиона раз на Hugging Face, платформе для обмена кодами с искусственным интеллектом.
- После получения степени магистра в 2017 году Гросман несколько раз менял предметы за первые два года обучения;
- Наконец, было решено выявить предвзятость языковой модели;
- Рак легких помешал ему улучшить существующие результаты и заставил отложить работу, чтобы лечить себя;
- Чтобы отвлечься, он искал что-то связанное с программированием.
Я наткнулся на работу Facebook Research, теперь Meta AI, которая была связана с распознаванием речи, в основном для расшифровки аудио. Они предложили модель, которая показалась мне интересной, и я начал ее реализовывать.
Джонатас Гросман в интервью UOL
Во время своего исследования того, как взаимодействовать с нейронной сетью (сложной системой, которая пытается заставить ИИ вести себя как наш мозг), Гросман решил принять участие в конкурсе, организованном Hugging Face в 2021 году.
К концу гонки он построил лучшие речевые модели, отвечающие за обучение роботов нескольким языкам (не менее восьми). Таким образом, роботы транскрибируют то, что они услышали.
Результат заставил его, вернувшись в прошлом году в докторантуру, переключиться на другую тему: «Оценка надежности больших предварительно обученных моделей в распознавании речи», что позволило ему выиграть новый выпуск турнира по объятиям.
Мне очень льстит победа в обоих конкурсах и когда я вижу, сколько загрузок было сделано с моей моделью.
Джонатас Гросман в интервью UOL
используя технологию
Любой желающий может скачать мои шаблоны и использовать их в коммерческих целях, и даже заработать на них много денег, в то время как я не зарабатываю ни копейки. Мое намерение состоит в том, чтобы помочь людям с открытым исходным кодом.
Джонатас Гросман в интервью UOL
Гросман отмечает, что это решение можно использовать для различных действий, таких как расшифровка интервью и создание автоматических субтитров на YouTube. «Многие люди обращались ко мне с просьбой о помощи. Был человек, который обратился за помощью, чтобы использовать его для «сообщения» о рентгеновских снимках. Она записала аудио доклада, а затем использовала мою модель для расшифровки аудио».
Со временем он разработал технологию идентификации, выходящую за рамки обычных слов, выходящую за пределы мира медицины и колл-центра. Сегодня уже есть модификации системы. Например, один пользователь научил его распознавать эмоции в речи.
С его помощью я определил, что моя диссертация будет в области НЛП, которая, со многими кавычками, является способом заставить компьютер понимать информацию, которая может поступать в текстовой или звуковой форме. Мне пришлось построить интеллект, чтобы извлекать информацию из текстов.
Джонатас Гросман в интервью UOL
По информации от UOL
Вы смотрели новые видео на YouTube цифрового взгляда? Подписывайтесь на канал!