Разделение изображения текста на слова - возможно ли это?

Мне интересно, есть ли способ разбить отсканированную копию страницы (то есть изображение) на изображения составляющих его слов. Сканируемая книга написана на индийском языке, для которого OCR (оптическое распознавание символов) не будет работать.

Цель состоит в том, чтобы иметь цифровую версию книги (на том же языке), и для этого я думал о следующем:

  • отсканировать книгу
  • разделить содержимое страницы на составляющие слова
  • отправьте изображения слов транскриберам, которые могут напечатать слово на изображении
  • собрать слова на каждой странице

Поскольку сопоставление изображения с изображением является достаточно хорошим, изображения одного и того же слова могут быть идентифицированы, и, таким образом, не нужно будет транскрибировать повторно.

Любая помощь будет отличной!

0 ответов

Другие вопросы по тегам