Как обучить tesseract игнорировать волнистые линии, добавленные из-за орфографических и грамматических ошибок?

Я использую tesseract для обнаружения текста на различных типах изображений, в том числе на снимках экрана, его спутывают волнистые красные и синие подчеркивания для орфографических и грамматических предупреждений, как в примере ниже. Я не получаю ни текста, ни искаженного беспорядка.

Я рассмотрел способы устранения этих строк в предварительной обработке imagemagick с некоторым успехом, но эти методы удаляют любой текст, который является красным или синим, что нежелательно - плюс они занимают много времени, и мне нужно обработать более 100 КБ. изображений в день. Я думаю, что, возможно, есть способ научить тессеракт распознавать и отбрасывать эти строки, но я не уверен, как это сработает.

Я видел учебники о том, как обучить tesseract распознавать текст, но я не видел ничего, как научиться распознавать что-то, что не является текстом. Есть ли способ, которым я могу обучить тессеракт или сделать что-то с помощью настройки Leptonica, которую он использует, чтобы игнорировать эти строки?

Если кто-то успешно справился с этим, пожалуйста, дайте мне знать, в противном случае, какой будет рекомендуемый подход?

1 ответ

В настоящее время я пытаюсь научиться преподавать тессеракт (я застрял на том, как создавать файлы lstm для обучения), но я знаю, что вы можете точно настроить свои обученные данные. Я использую jTessBoxEditor для исправления ошибок, которые тессеракт делает во время OCR, я просто не нашел способа реализовать изменения в форме обучения, но я думаю, что это именно то, что вам нужно.

Используя jTessBoxEditor, вы можете увидеть, как выполняется OCR на вашей картинке, также вы можете отредактировать ее, но я все еще застрял в том, как реализовать обучение (все еще жду ответа на форуме и здесь), поэтому я не могу помочь больше, потому что Вот как далеко я продвинулся, и я не ожидал, что кто-нибудь ответит на ваш вопрос, так как ему 2 года, так что ваши настройки, вероятно, уже устарели. Я пробую tesseract-ocr 4.* и обучение в новой версии сильно изменилось, но и инструменты тоже эволюционировали, поэтому ваша проблема выполнима с помощью jTessBoxEditor, но я не знаю, как ее реализовать, так что на самом деле это не ответ, а просто частично.

Я надеюсь, что смогу помочь вам, хотя бы чуть-чуть.

Другие вопросы по тегам