Стенограмма DVD

Question

Стенограмма DVD

Есть ли программа, которая возьмет аудио с DVD и превратит его в письменную расшифровку. Смысл будет принимать то, что говорится, и записывать каждое слово.

3

transcription

Источник

Amber 18 ноя '10 в 20:20

6 ответов

Другие вопросы по тегам transcription

sleske 18 ноя '10 в 22:21 2010-11-18 22:21 · Answer 1 · 2010-11-18 22:21

Что вам нужно, это программное обеспечение для "распознавания речи". Есть много доступных, но имейте в виду, что результаты, как правило, требуют много исправлений. DVD будет особенно трудным, потому что они имеют несколько разных динамиков, возможно, много шума и плохого / нестандартного произношения. Таким образом, вы можете ожидать только черновой набросок стенограммы, вам все равно придется многое делать вручную.

С технической точки зрения вам, вероятно, придется извлечь аудио с DVD (используя некоторое программное обеспечение Ripper, например, mplayer), затем запустите его через программу распознавания речи.

Посмотрите ответы под тегами speech-recognition а также speech-to-text на суперпользователя для программного обеспечения вы можете использовать.

Nick 18 ноя '10 в 22:00 2010-11-18 22:00 · Answer 2 · 2010-11-18 22:00

Возможно, вы могли бы найти что-то, что читает подписи. Я не знаю такого продукта.

1

Источник

Nick 18 ноя '10 в 22:00

Ken 19 ноя '10 в 01:13 2010-11-19 01:13 · Answer 3 · 2010-11-19 01:13

Если у контента есть скрытые титры, они напрямую и надежно переносятся машиной в данных DVD. Тем не менее, они часто не являются тем, что сказано, а скорее перефразированы, чтобы их можно было прочитать, когда диалог быстр (и редко просто ошибочен).

Субтитры могут страдать от одного и того же перефразирования. Кроме того, на DVD они реализованы в виде графических оверлеев, так что вам действительно нужен какой-то OCR для преобразования их обратно в текст.

Franck Dernoncourt 23 сен '22 в 02:27 2022-09-23 02:27 · Answer 4 · 2022-09-23 02:27

OpenAI Whisper (лицензия MIT, Python 3.9, CLI) обеспечивает очень точную транскрипцию.

Для использования (проверено на Ubuntu 20.04 x64 LTS, но также работает на Windows или macOS):

      conda create -y --name whisperpy39 python==3.9
conda activate whisperpy39
pip install git+https://github.com/openai/whisper.git 
sudo apt update && sudo apt install ffmpeg
whisper recording.wav
whisper recording.wav --model large

Если вы используете графический процессор Nvidia 3090, добавьте следующее послеconda activate whisperpy39

      pip install -f https://download.pytorch.org/whl/torch_stable.html
conda install pytorch==1.10.1 torchvision torchaudio cudatoolkit=11.0 -c pytorch

Информация о производительности ниже.

Время вывода модели:

WER для нескольких корпусов из https://cdn.openai.com/papers/whisper.pdf:

WER на нескольких языках с https://github.com/openai/whisper/blob/main/language-breakdown.svg:

bitslave 18 ноя '10 в 23:29 2010-11-18 23:29 · Answer 5 · 2010-11-18 23:29

Это не задача, в которой компьютеры превосходят. Вы рассматривали возможность использования механического турка?

0

Источник

bitslave 18 ноя '10 в 23:29

RobotHumans 18 ноя '10 в 21:01 2010-11-18 21:01 · Answer 6 · 2010-11-18 21:01

Точное распознавание речи без обучения программному обеспечению невозможно... для известных подсказок (как в IVR) вы можете сделать нечеткую логику, где она "звучит как" x,y,z или сказать снова... это невозможно генерировать транскрипты / субтитры для DVD

-1

Источник

RobotHumans 18 ноя '10 в 21:01