Стенограмма DVD
Есть ли программа, которая возьмет аудио с DVD и превратит его в письменную расшифровку. Смысл будет принимать то, что говорится, и записывать каждое слово.
6 ответов
Что вам нужно, это программное обеспечение для "распознавания речи". Есть много доступных, но имейте в виду, что результаты, как правило, требуют много исправлений. DVD будет особенно трудным, потому что они имеют несколько разных динамиков, возможно, много шума и плохого / нестандартного произношения. Таким образом, вы можете ожидать только черновой набросок стенограммы, вам все равно придется многое делать вручную.
С технической точки зрения вам, вероятно, придется извлечь аудио с DVD (используя некоторое программное обеспечение Ripper, например, mplayer
), затем запустите его через программу распознавания речи.
Посмотрите ответы под тегами speech-recognition
а также speech-to-text
на суперпользователя для программного обеспечения вы можете использовать.
Возможно, вы могли бы найти что-то, что читает подписи. Я не знаю такого продукта.
Если у контента есть скрытые титры, они напрямую и надежно переносятся машиной в данных DVD. Тем не менее, они часто не являются тем, что сказано, а скорее перефразированы, чтобы их можно было прочитать, когда диалог быстр (и редко просто ошибочен).
Субтитры могут страдать от одного и того же перефразирования. Кроме того, на DVD они реализованы в виде графических оверлеев, так что вам действительно нужен какой-то OCR для преобразования их обратно в текст.
OpenAI Whisper (лицензия MIT, Python 3.9, CLI) обеспечивает очень точную транскрипцию.
Для использования (проверено на Ubuntu 20.04 x64 LTS, но также работает на Windows или macOS):
conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large
Если вы используете графический процессор Nvidia 3090, добавьте следующее послеconda activate whisperpy39
pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch
Информация о производительности ниже.
Время вывода модели:
WER для нескольких корпусов из https://cdn.openai.com/papers/whisper.pdf:
WER на нескольких языках с https://github.com/openai/whisper/blob/main/language-breakdown.svg:
Это не задача, в которой компьютеры превосходят. Вы рассматривали возможность использования механического турка?
Точное распознавание речи без обучения программному обеспечению невозможно... для известных подсказок (как в IVR) вы можете сделать нечеткую логику, где она "звучит как" x,y,z или сказать снова... это невозможно генерировать транскрипты / субтитры для DVD