Не удается скопировать текст из файла PDF

Я использую foxit PDF Reader для просмотра моего учебника. Я хотел бы скопировать текст из PDF-файла в текстовый документ, но он не позволит мне. Я могу выделить текст хорошо, но опция для копирования текста недоступна. Я могу скопировать текст из других документов, но не некоторые. Есть ли способ обойти эту защиту в окнах?

12 ответов

Решение

Возможно, PDF-файл заблокирован от копирования текста. Ниже приведены два способа разблокировки:

  1. Если PDF-файл не был заблокирован для печати, вы можете распечатать его на виртуальном PDF-принтере, чтобы создать разблокированный файл. Видеть это:
    "Удалить пароль и разблокировать защищенный PDF, который разрешается печатать, не зная секрета".
  2. Если функция печати была заблокирована, посмотрите это:
    "Снять ограничения и расшифровать защищенные паролем PDF-файлы с помощью PDF Unlocker".
  1. Откройте PDF-файл в Google Chrome(перетащите файл PDF в Chrome).
  2. Распечатайте определенную страницу в формате PDF или просто откройте предварительный просмотр.
  3. Теперь вы можете скопировать текст из предварительного просмотра или вывода PDF. Но я не думаю, что вы могли бы скопировать таблицу напрямую.

Мне удалось создать версию PDF-файла без DRM, используя Ghostscript (который доступен для Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

Полученный файл stripped.pdf можно загрузить в Adobe Reader, и Reader с радостью позволит вам скопировать любую его часть, которую вы пожелаете. Это также сохраняет большую часть форматирования таблицы.

Если копия неактивна, так как теперь это сомнение для вас, тогда PDF-файл "заблокирован", его можно прочитать, но он действительно мешает вам копировать / вставлять что-либо из него.

Этот сайт откроет PDF

https://smallpdf.com/unlock-pdf

Я смог успешно скопировать таблицу из вашего PDF-файла, используя Okular (для Linux; часть KDE). Чтобы сделать это, мне нужно было зайти в настройки Okular и снять флажок "Подчиняться ограничениям DRM".

Я знаю, что это не очень вам помогает, так как вы работаете с Windows, но это возможно, если у вас есть машина с Linux под рукой или вы хотите ее установить.

К сожалению, это был простой текст без форматирования, но похоже, что воссоздать таблицу не составит большого труда. Вы можете увидеть результаты моего копирования и вставки приключений здесь.

Это удалось преобразовать основной текст. Это изобиловало таблицами, хотя.

http://www.onlineocr.net/documents

Вы можете использовать GT Text - программу, которая переводит изображения (также pdf snapshots = image) в текст. Вы можете выбрать область и скопировать ее в буфер обмена. Это бесплатно.

Официальная домашняя страница http://gttext.googlecode.com/

Ответ эндолиту:

Ваш PDF защищен от копирования, но не защищен от печати.

Поэтому я распечатал одну страницу, содержащую таблицу 6.15, в другой PDF-файл, который не защищен от копирования, выделил и скопировал таблицу, а затем вставил ее в Word. К моему большому удивлению, результатом пасты стал полный мусор.

Теперь я еще раз взглянул на эту таблицу и нашел очень удивительный результат:это не таблица!

Это на самом деле монтаж небольших фрагментов текста, расположенных на странице, чтобы выглядеть как таблица. Но это не настоящая таблица.

Лучшее, что вы можете сделать, это либо переписать все это в виде таблицы, либо просто использовать в своей работе скриншот этого табличного текста в собранном виде.

Вот мой скриншот таблицы, взятый из моего сгенерированного одностраничного PDF-документа:

образ

Если вы просто ищете короткие фрагменты, вы часто можете ввести несколько слов в Google внутри кавычек и найти точную цитату, уже отсканированную в другом формате или набранную кем-то другим.

Другой вариант - "Документ из фотографии" в приложении Google Docs для Android, в котором текст вводится через OCR. Это подвержено ошибкам, конечно.

Я бы хотел, чтобы функциональность блокировки PDF никогда не существовала.:(

Я нашел гораздо более простое решение: откройте PDF-файл с помощью встроенной в Firefox программы чтения PDF-файлов и просто скопируйте текст! ;)(по крайней мере, у меня это сработало с Firefox 108.0.1)

Блокировка копируемого контента — это просто обман наивных людей и раздражение других, а не защита контента...

Да, вы можете использовать DocDocGoose , веб-приложение с открытым исходным кодом, чтобы снять ограничения на копирование, редактирование и выделение из вашего документа, даже без исходного пароля, который использовался для установки этих ограничений. Нет необходимости загружать или устанавливать какое-либо дополнительное программное обеспечение.

Поскольку обработка происходит в вашем браузере, это может занять некоторое время, если ваш PDF-файл большой.

Отказ от ответственности: я являюсь автором DocDocGoose.

Другая возможность - Evince.

В Windows, кажется, поддерживает копирование по умолчанию.

В Linux копирование можно включить, проверив override_restrictions установка, если это не так, следуя этим указаниям (dconf-editor/org/gnome/evinceoverride_restrictions).

Другие вопросы по тегам