SEOFAQ Telegram, маркетинг и SEO Канал SEOFAQT в мессенджере Telegram

Все чатыWhisper - новая модель преобразования речи в текст от OpenAI

 588  


Whisper - новая модель преобразования речи в текст от OpenAI

1. Лучшие английские транскрипции в своем классе!

Whisper может достичь надежности и точности распознавания английской речи на уровне человека.

Обученная на 680 тыс. часов многоязычных данных, собранных из Интернета, эта модель устойчива к акцентам, фоновому шуму и техническому языку.

2. Многоязычные транскрипции

Новая модель способна транскрибировать текст на нескольких языках, а также переводить с этих языков на английский.

3. Открытый исходный код

OpenAI сделал модели транскрипции открытыми, что послужит основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи.

Модель "Шепот" (whisper) доступна в пяти различных вариантах:

- крошечный (39 М)

- базовый (74 М)

- малый (244 М)

- средний (769 M)

- большой (1550 M)

Посмотрите карточку Whisper здесь: github.com/openai/whisper/blob/main/model-card.md

Чтобы понять, как работает модель рекомендую прочитать научную статью "Robust Speech Recognition via Large-Scale Weak Supervision".

--

В видео, которым поделился Дэнни Ричман слышно и видно, как очень сильный акцент (для многих даже непонятный) без проблем преобразуется в текст.

Уже представляю, как некоторые начинают думать о том, как генерить текстовый контент с видео и подкастов при помощи Виспера...

Какие применения этому вы видите?

@MikeBlazerX

Ссылки из поста:
https://cdn.openai.com/papers/whisper.pdf
https://twitter.com/DannyRichman/status/1573241430...
https://t.me/MikeBlazerX

Источник новости https://t.me/mikeblazerx/566...