Как удалить OCR из PDF?

Question

Как удалить OCR из PDF?

Я давно ищу в Google, но не могу найти ответ на свой вопрос.

У меня есть нежелательные слои распознавания текста в документе, который я недавно отсканировал с помощью Adobe Acrobat. Он не был правильно распознан, и я хочу отредактировать некоторую информацию, но OCR создает необходимую информацию для удаления. Я преобразовал файлы в формат TIF, но заметил (очень) значительную потерю качества. Я слышал, что печать в другой PDF-файл либо сохраняет текст, либо снижает качество изображения.

Я ценю любую помощь в решении этой проблемы как можно скорее.

Благодарю вас.

21

pdf adobe-acrobat ocr tif

Источник

Sanoo 11 окт '14 в 06:32

11 ответов

Другие вопросы по тегам pdf adobe-acrobat ocr tif

user1125483 11 апр '17 в 04:11 2017-04-11 04:11 · Answer 1 · 2017-04-11 04:11

В Acrobat Pro DC соответствующей командой является "Удалить скрытую информацию", доступную через инструменты "Защита" и "Редактирование".

При запуске команды она просто ищет скрытую информацию, но не меняет документ. Затем вы должны указать Acrobat, какую информацию удалить. В этом случае выберите "Скрытый текст" на панели результатов, затем нажмите кнопку "Удалить" и сохраните измененный документ.

Sanoo 13 окт '14 в 06:06 2014-10-13 06:06 · Answer 2 · 2014-10-13 06:06

После долгих экспериментов я обнаружил, что при печати в Adobe PDF из Adobe Acrobat документ распечатывается без распознавания текста и без потери качества (незаметное на первый взгляд разрешение теряется).

Однако многие сайты утверждают, что это не работает. Я также пробовал другие принтеры, такие как Foxit Reader и OneNote, но качество было снижено. JPEG тоже был таким же.

Пожалуйста, имейте в виду, что ваш пробег может отличаться.

Примечание: я оставляю эту ветку помеченной как неотвеченную в надежде найти лучший ответ, чем мой.

jazzzz 20 окт '16 в 15:55 2016-10-20 15:55 · Answer 3 · 2016-10-20 15:55

В Acrobat Pro: используйте "удалить скрытую информацию" (в разделе "защита"). Выбрать все, выполнить, OCR пропал

3

Источник

jazzzz 20 окт '16 в 15:55

Fran 10 дек '15 в 10:50 2015-12-10 10:50 · Answer 4 · 2015-12-10 10:50

(год назад...)

Если, как вы говорите, документы отсканированы и, например, не напечатаны в формате PDF из Word, вы можете легко удалить их с помощью Adobe:

Выберите " Документ", "Проверить документ", и теперь вы можете удалить скрытый текст (OCR).

3

Источник

Fran 10 дек '15 в 10:50

toster-cx 12 май '20 в 12:12 2020-05-12 12:12 · Answer 5 · 2020-05-12 12:12

Попробуйте драйвер «MS Print to PDF». Он поставляется со всеми последними версиями Windows. Обязательно установите флажок «Печать как изображение» в дополнительных настройках, чтобы удалить распознавание текста.

Потеря качества при печати в PDF незначительна. Однако по умолчанию OCR сохраняется, если вы не печатаете как изображение.

alexanderlukanin13 21 янв '21 в 11:22 2021-01-21 11:22 · Answer 6 · 2021-01-21 11:22

Простой способ удалить слой OCR из PDF: откройте PDF в Firefox и «распечатайте» его в другой PDF-файл.

Обратите внимание, что «красивый» PDF-файл (например, созданный в MS Word) станет намного больше (в моем случае от 0,5 до 2 МБ), а качество несколько ухудшится. Убедитесь, что вы установили правильный размер бумаги при печати.

Если вы хотите повторить распознавание текста вместо его полного удаления и не возражаете против командной строки, используйте ocrmypdf :

      ocrmypdf --redo-ocr --output-type=pdf input.pdf output.pdf

В Windows 10 самый простой способ настроить и использовать ocrmypdf — через WSL.

Dave 14 дек '17 в 08:49 2017-12-14 08:49 · Answer 7 · 2017-12-14 08:49

В Acrobat X в разделе Защита есть кнопка Sanitize Document, которая удаляет ВСЕ, кроме того, что можно увидеть (включая текстовый слой OCR), преобразовывая документ в сплющенную битовую карту.

1

Источник

Dave 14 дек '17 в 08:49

25 мар '20 в 20:51 2020-03-25 20:51 · Answer 8 · 2020-03-25 20:51

Я решил это экспортом в JPEG, затем из JPEG 'объединить файлы в acrobat'. Это из документа, который изначально был документом Word и был преобразован в PDF. OCR больше нет.

1

Источник

25 мар '20 в 20:51

hrdom 29 мар '21 в 01:23 2021-03-29 01:23 · Answer 9 · 2021-03-29 01:23

Используйте плагин PitStop Pro Acrobat, в «Списке действий» создайте новое действие, справа вверху найдите «Выбрать фрагмент текста» и «Удалить выбранный объект», запустите область действия: весь документ, как показано ниже:

1

Источник

hrdom 29 мар '21 в 01:23

levinology 31 янв '19 в 07:31 2019-01-31 07:31 · Answer 10 · 2019-01-31 07:31

Я создал инструмент, чтобы сделать этот бесплатный PDF Redactor. Если вы загрузите изображение и нажмете "Отредактировать", оно сгладит ваш PDF и удалит OCR. При желании вы также можете нарисовать отметки редактирования на документе.

0

Источник

levinology 31 янв '19 в 07:31

Maggyero 29 сен '21 в 13:13 2021-09-29 13:13 · Answer 11 · 2021-09-29 13:13

Для Adobe X и более поздних версий: Инструменты > Защита > Удалить скрытую информацию.
Для Adobe 9 и более ранних версий: «Документ» > «Просмотреть документ».

Ссылка: https://answers.acrobatusers.com/undo-recowle-text-q28083.aspx .

0

Источник

Maggyero 29 сен '21 в 13:13