Сканирование документов: как ускорить программную часть процесса сканирования?

Question

Сканирование документов: как ускорить программную часть процесса сканирования?

Я ищу решение для ускорения процесса сканирования документов, особенно для тех документов, которые не подходят для обычного сканера документов с автоматической подачей документов (АПД). Для этих документов в настоящее время я использую планшетный сканер.

Сначала я подумал, что решением будет более быстрое аппаратное сканирование (например, сканер камеры вместо обычного планшетного сканера). Но я заметил, что общее время сканирования составляет всего 20 % для оборудования сканирования (движение сканирующей головки), но 80 % для программного обеспечения (улучшение изображения и оптическое распознавание символов).

Чтобы ускорить сканирование, я искал следующее: (а) программное обеспечение для сканирования, которое будет использовать не только одно ядро / поток ЦП, но и несколько ядер / потоков. Несмотря на долгий поиск, я не смог найти многопоточную программу для TWAIN. (б) рабочий процесс + программное обеспечение: программа, которая предлагает возможность определять мои собственные профили сканирования. Но я не мог найти программное обеспечение, которое предлагает профили сканирования и в то же время хорошее автообрезание (и OCR не только на английском языке). (c) рабочий процесс, т. е. перемещение OCR на отдельный этап (но я не получил от этого никакой скорости, поскольку программное обеспечение, входящее в комплект моих планшетных сканеров CanoScan, требует одинакового времени для сканирования, независимо от того, включаю ли я OCR или нет)

Как я могу ускорить сканирование?

Для тех, кто знает стороннее программное обеспечение для сканирования документов на рынке: увижу ли я значительную разницу в скорости между двухъядерным процессором i7 и четырехъядерным процессором i7?

Под программным обеспечением для сканирования документов я понимаю программное обеспечение, которое включает в себя функции улучшения изображения (например, выравнивание по горизонтали, автообрезка, удаление экрана), распознавание текста (не только для английского языка), возможность сохранять файлы нескольких типов (jpg, jpeg2000, TIFF, PDF с возможностью поиска и возможностью поиска)., PDF/A) и профили сканирования (= определенная пользователем комбинация точек на дюйм, настроек улучшения изображения, языка распознавания текста, типа файла).

0

ocr scanning image-processing cpu-cores document-scanning

Источник

user291737 12 фев '14 в 22:55

1 ответ

Другие вопросы по тегам ocr scanning image-processing cpu-cores document-scanning

Damon 13 фев '14 в 08:37 2014-02-13 08:37 · Answer 1 · 2014-02-13 08:37

Во-первых, отделите процесс сканирования от процесса постобработки. Сделайте это, отсканировав изображение как изображение с более высоким разрешением 300-600 точек на дюйм или более. Файлы будут большими, но только временными, пока вы не отправите процесс. Размер файла будет самым большим замедлением, поэтому уменьшите разрешение и битовую глубину настолько низко, насколько это возможно. (например, используйте шкалу серого, если вам не нужен цвет). Чего вы не хотите, так это 24-битного изображения 1200DPI с разрешением 8-1/2"x11", которое составляет 100 МБ каждый, если вам не нужно; они слишком долго сохраняются и открываются.

Затем, используя любое программное обеспечение, которое соответствует вашим потребностям, запустите вашу пост-обработку в пакетном режиме по вашему усмотрению. Все программное обеспечение работает по-разному, поэтому вам придется изучать свое программное обеспечение.

Здесь подвох хотя. Большинство программ работают только на 1 ядре вашего многоядерного процессора, поэтому лучший способ ускорить работу - это открыть вашу программу несколько раз и разделить пакеты между открытыми экземплярами программы. Большинство программ не открывают несколько экземпляров, поэтому вам нужно запускать программу либо из меню "Пуск" вручную, либо из команды запуска с помощью специального "переключателя". В зависимости от вашей программы зависит, как вы это делаете. Например, Acrobat нужно запустить из команды запуска как "ACROBAT /N", чтобы открыть новый экземпляр, если экземпляр уже открыт.

Если у меня есть более 10000 страниц для последующей обработки, то в течение дня я открою 3 экземпляра на 4-ядерном компьютере и разделю задания по 3 экземплярам, чтобы я мог использовать компьютер (процессор работает на 75%, оставляя 25% за "служебное использование"). Ночью я запускаю 4 экземпляра, чтобы максимально использовать компьютер.

Но если я знаю, что постобработка не займет так много времени, скажем, всего несколько часов, я не буду беспокоиться об открытии экземпляров; Я просто запускаю партию и отпускаю, пока не завершу. В случае двухъядерного компьютера это позволит вам выполнить постобработку и по-прежнему использовать компьютер. Большинство партий не займет так много времени. Имейте в виду, что если вы запускаете 2-3 экземпляра на двухъядерном компьютере, ваш компьютер может не функционировать в качестве настольного компьютера для активного использования, пока не закончится пакет.

Другой вариант, независимо от того, запускаете ли вы экземпляры или нет, состоит в том, чтобы зайти в диспетчер задач Windows и изменить приоритет ЦП для экземпляров ниже нормального, чтобы ваша активная работа имела приоритет перед фоновой постобработкой.

Что касается скорости, чем больше ядер работает, тем быстрее будет идти обработка. Проблема в том, что если у вас есть двухъядерный процессор, на котором вы запускаете однопоточное приложение, и вы покупаете сопоставимое четырехъядерное ядро и запускаете одно и то же приложение таким же образом, оно не будет работать быстрее. Итак, хитрость заключается в том, чтобы запускать ваше однопоточное приложение одновременно несколько раз, чтобы максимально использовать возможности вашего процессора.

В конце постобработки сохраните документ (ы) в желаемом формате, затем пакет QC перед удалением изображений.

Если вы используете Acrobat и запускаете большие партии, будьте готовы к проблемам! Ищите решения и находите больше людей с такими же проблемами! Акробат это боль!