Стенограмма DVD

Есть ли программа, которая возьмет аудио с DVD и превратит его в письменную расшифровку. Смысл будет принимать то, что говорится, и записывать каждое слово.

6 ответов

Что вам нужно, это программное обеспечение для "распознавания речи". Есть много доступных, но имейте в виду, что результаты, как правило, требуют много исправлений. DVD будет особенно трудным, потому что они имеют несколько разных динамиков, возможно, много шума и плохого / нестандартного произношения. Таким образом, вы можете ожидать только черновой набросок стенограммы, вам все равно придется многое делать вручную.

С технической точки зрения вам, вероятно, придется извлечь аудио с DVD (используя некоторое программное обеспечение Ripper, например, mplayer), затем запустите его через программу распознавания речи.

Посмотрите ответы под тегами speech-recognition а также speech-to-text на суперпользователя для программного обеспечения вы можете использовать.

Возможно, вы могли бы найти что-то, что читает подписи. Я не знаю такого продукта.

Если у контента есть скрытые титры, они напрямую и надежно переносятся машиной в данных DVD. Тем не менее, они часто не являются тем, что сказано, а скорее перефразированы, чтобы их можно было прочитать, когда диалог быстр (и редко просто ошибочен).

Субтитры могут страдать от одного и того же перефразирования. Кроме того, на DVD они реализованы в виде графических оверлеев, так что вам действительно нужен какой-то OCR для преобразования их обратно в текст.

OpenAI Whisper (лицензия MIT, Python 3.9, CLI) обеспечивает очень точную транскрипцию.

Для использования (проверено на Ubuntu 20.04 x64 LTS, но также работает на Windows или macOS):

      conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git 
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large

Если вы используете графический процессор Nvidia 3090, добавьте следующее послеconda activate whisperpy39

      pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch

Информация о производительности ниже.

Время вывода модели:

WER для нескольких корпусов из https://cdn.openai.com/papers/whisper.pdf:

WER на нескольких языках с https://github.com/openai/whisper/blob/main/language-breakdown.svg:

Это не задача, в которой компьютеры превосходят. Вы рассматривали возможность использования механического турка?

Точное распознавание речи без обучения программному обеспечению невозможно... для известных подсказок (как в IVR) вы можете сделать нечеткую логику, где она "звучит как" x,y,z или сказать снова... это невозможно генерировать транскрипты / субтитры для DVD

Другие вопросы по тегам