Whisper - новая модель преобразования речи в текст от OpenAI
588
Whisper - новая модель преобразования речи в текст от OpenAI
1. Лучшие английские транскрипции в своем классе!
Whisper может достичь надежности и точности распознавания английской речи на уровне человека.
Обученная на 680 тыс. часов многоязычных данных, собранных из Интернета, эта модель устойчива к акцентам, фоновому шуму и техническому языку.
2. Многоязычные транскрипции
Новая модель способна транскрибировать текст на нескольких языках, а также переводить с этих языков на английский.
3. Открытый исходный код
OpenAI сделал модели транскрипции открытыми, что послужит основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи.
Модель "Шепот" (whisper) доступна в пяти различных вариантах:
- крошечный (39 М)
- базовый (74 М)
- малый (244 М)
- средний (769 M)
- большой (1550 M)
Посмотрите карточку Whisper здесь: github.com/openai/whisper/blob/main/model-card.md
Чтобы понять, как работает модель рекомендую прочитать научную статью "Robust Speech Recognition via Large-Scale Weak Supervision".
--
В видео, которым поделился Дэнни Ричман слышно и видно, как очень сильный акцент (для многих даже непонятный) без проблем преобразуется в текст.
Уже представляю, как некоторые начинают думать о том, как генерить текстовый контент с видео и подкастов при помощи Виспера...
Какие применения этому вы видите?
@MikeBlazerX
Ссылки из поста:– https://cdn.openai.com/papers/whisper.pdf
– https://twitter.com/DannyRichman/status/1573241430...
– https://t.me/MikeBlazerX
Источник новости https://t.me/mikeblazerx/566...