Описание тега tesseract-ocr

Tesseract - это механизм оптического распознавания символов (OCR)
1 ответ

Как обучить tesseract игнорировать волнистые линии, добавленные из-за орфографических и грамматических ошибок?

Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических предупреждений, как в примере ниже. Я не получаю н…
13 янв '17 в 09:45
0 ответов

Tesseract на Windows: выходы всегда неточны

Поэтому я пытаюсь распознать это изображение: (на самом деле это имена пользователей) используя эту команду в командной строке Windows: tesseract screenshot.png out Однако out.txt всегда дает неточные результаты. В этом случае это: belsahx Что я дел…
26 авг '15 в 08:52
2 ответа

Как оставить изображение PDF без изменений при добавлении OCR в PDF с pdfsandwich?

Я пытаюсь добавить OCR в PDF-файлы и использую для этого pdfsandwich. Проблема в том, что pdfsandwich обрабатывает изображение при распознавании, которое меняет внешний вид документа. Есть ли способ гарантировать, что изображение PDF остается полнос…
25 апр '19 в 02:10
2 ответа

OCR с неязыковым текстом

Мне интересно использовать OCR для распознавания текста из документа, который не содержит слов. Скорее, это документ с длинной строкой "случайных" печатных символов. Я пытался использовать tesseract для сканирования текста, но, похоже, он ищет слова…
28 авг '13 в 15:00
1 ответ

В jTessBoxEditor for Tesseract, как объединить несколько файлов TIFF/boxfile в один файл с обученными данными

Я думаю, что это было бы возможно с командной строкой, но как это сделать с помощью jTessBoxEditor, поскольку это автоматизировало бы большую часть рабочего процесса. Так как jTessBox поддерживает многостраничный TIFF, я думаю, что так может быть, н…
25 ноя '15 в 08:03
1 ответ

Как заставить OCR распознавать это изображение

Исходное изображение Я думаю, что распознать цифры из этого изображения было бы действительно легко, но это не может быть распознано тессерактом и большим количеством онлайн-распознавания текста. Затем я обрабатываю это так. изображение процесса К с…
06 янв '16 в 12:02
1 ответ

Как извлечь символ Unicode из файла.png?

Я хочу извлечь символ Unicode из файлов.jpg и.png. Я пытаюсь сделать это с помощью следующей команды: tesseract 1.png output.txt Эта команда работает для английских символов, но когда я пробую ее для Юникода, такого как хинди, маратхи или сценарий д…
14 фев '16 в 16:01
3 ответа

Оптимальный шрифт для Tesseract? (в частности, оболочка.NET)

Я использую Tesseract как средство для преобразования печатных текстовых документов, снятых моей камерой мобильного телефона, в текст. Результаты не велики. Качество изображения очень хорошее, намного более четкое, чем у факса, но, похоже, очень сло…
03 июл '16 в 16:12
0 ответов

Как автоматически определить язык текста на фотографии и перевести его

Мне удалось встроить приложение OCR для обнаружения текста по фотографии https://obserbot.com/ но оно только извлекает точный текст из фотографии и не конвертирует его на нескольких языках. Я хочу, чтобы приложение обнаружило текстовый язык и автома…
21 мар '17 в 18:37
0 ответов

Смешная OCR-ситуация

У меня есть отсканированный многостраничный PDF-файл с разрешением 300 точек на дюйм в системе Ubuntu 16.04. Когда я запускаю следующую команду: pdfocr -t -l swe -i *.pdf -o newfile.pdf Это приводит к идеально читаемому OCR файлу. Каждое слово досту…
30 июн '16 в 15:10
2 ответа

Tesseract 3.03 данные английского языка

Tesseract 3.03 был выпущен недавно, и я только что установил его. Тем не менее, данные на английском языке не предоставляются при загрузке (с https://launchpad.net/ubuntu/+source/tesseract/3.03.03-1). На веб-сайте Tesseract есть ссылка "Загрузить", …
26 май '14 в 11:44
2 ответа

Тессеракт на Linux

Как решить проблему, не устанавливая tesseract 3.03, когда я получаю предупреждение: Предупреждение. Вы используете неподдерживаемую версию Tesseract. Ожидается версия 3.03, ваша версия: 3.02.02 Ошибка открытия файла данных /usr/local/share/tessdata…
03 сен '14 в 14:22
1 ответ

Используйте ffmpeg для преобразования JPEG в TIFF

Я хотел бы использовать Tesseract OCR с видео. С помощью ffmpeg я могу экспортировать некоторые (.jpeg) изображения из видео. Могу ли я преобразовать .jpeg в действительный .tiff или экспортировать напрямую .tiff изображения из видео с ffmpeg?
17 окт '14 в 07:27
0 ответов

Отключить словарь в Tess4J

Точность распознавания символов в моем приложении tess4j OCR очень низкая. Я слышал, что отключение словаря в tess4j повысит точность, позволяя распознавать отдельные символы. Но я не знаю, как это сделать. Кто-нибудь знает, как отключить словарь в …
20 окт '14 в 09:58
1 ответ

Можно ли преобразовать субтитры dvdsub в srt через командную строку?

Есть ли способ конвертировать субтитры dvdsub (на основе изображений) в SRT? например с mencoder или ffmpeg в сочетании с тессерактом? Я ищу что-то на основе командной строки, и я в порядке, чтобы пройти через несколько проходов. Я менее заинтересов…
30 сен '17 в 14:59
0 ответов

Tesseract не может сканировать `Ошибка: поддерживаются только 1,2,4,5,6,8 бит / с:32`

Хотя я и сделал convert canvas.png -depth 8 canvas.tif Я все еще вижу это сообщение об ошибке: Tesseract Open Source OCR Engine check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32 Segmentation fault Может кто-нибудь объяснить, почему,…
17 янв '13 в 10:12
3 ответа

OCR Tesseract, Ошибка пустой страницы?

Я собрал его из источников с leptonica, Это изображение в формате png с прозрачным фоном, которое я отредактировал, добавив синий цвет, и все еще эта ошибка: Tesseract Open Source OCR Engine v3.02.02 with Leptonica Empty page!! Empty page!! Вот вход…
18 янв '13 в 04:41
1 ответ

Tesseract hocr и txt одновременно, или преобразование из Tesseracts hocr в txt

Я играл с Linux OCR, и мне очень нравится Tesseract, особенно в сочетании с gsan2pdf. Tesseract v3 или более поздней версии поддерживает вывод в формате hocr, и gscan2pdf может использовать его для создания отсканированных документов PDF с возможнос…
16 май '13 в 20:57
1 ответ

Буфер обмена gImageReader не работает в Windows

Я использую gImageReader для некоторого распознавания текста в Windows 7, и хотя я могу копировать из самого приложения, я не могу скопировать во внешний буфер обмена Windows 7. Я считаю, что программа основана на gtk, и, возможно, необходимо измени…
16 янв '13 в 04:43
1 ответ

Как избежать искажения результатов с помощью инструмента OCR pdfsandwich?

Обычно отсканированные страницы должны быть выровнены до применения инструмента OCR. Здесь мой вход - это страница с прямым сканированием, а выходной сигнал OCR иногда искажается, по часовой стрелке или против часовой стрелки. В моем случае использо…
19 янв '15 в 15:19