Как преобразовать файл PDF в текстовый документ в Linux

В отличие от текстового файла, вы не можете редактировать PDF напрямую. Существует несколько способов создания файлов PDF с использованием текста. Но что, если вы хотите пойти другим путем и преобразовать PDF-файлы в текстовые файлы?

К счастью, Linux позволяет вам легко изменять эти файлы из терминала. В этой статье будет продемонстрировано, как преобразовать файл PDF в текстовый документ в Linux.

Преобразование PDF в текст из терминала

Poppler – это программная библиотека, используемая для визуализации и изменения файлов PDF. Он содержит служебную программу, известную как pdftotext , которая позволяет пользователям создавать текстовые файлы из PDF-файлов. Поскольку poppler-utils не входит в стандартные пакеты Linux, вам придется установить его вручную с помощью диспетчера пакетов.

В Ubuntu и Debian:

 sudo apt install poppler-utils

Чтобы установить Poppler в Arch Linux:

 sudo pacman -S poppler

Установить пакет poppler-utils в CentOS, Fedora и другие дистрибутивы на основе RHEL очень просто.

 sudo dnf install poppler-utils
sudo yum install poppler-utils

Преобразование всего PDF в текст

Основной синтаксис команды pdftotext:

 pdftotext [options] pdffile textfile

… где pdffile – это абсолютный или относительный путь к файлу PDF, а текстовый файл – это имя выходного файла.

Например, чтобы преобразовать lorem-ipsum.pdf в текстовый файл:

 pdftotext lorem-ipsum.pdf text.txt

Если в файле, который вы конвертируете, есть водяные знаки или невыровненный текст, вы можете удалить их в выводе с помощью флага -nodiag .

 pdftotext -nodiag lorem-ipsum.pdf random.text

Обработка страниц в определенном диапазоне

Используйте флаг -f и -l, если вы хотите преобразовать страницы, попадающие в определенный диапазон. Например, чтобы преобразовать страницы с первой по пятую в lorem-ipsum.pdf в текст:

 pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt

Чтобы преобразовать только первую страницу файла PDF:

 pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt

Преобразование PDF-файлов, защищенных паролем, в текст

Pdftotext может даже конвертировать PDF-файлы, защищенные паролем, в текстовые файлы. Флаги -upw и -opw , которые обозначают пароль пользователя и пароль владельца соответственно, заботятся о процессе аутентификации при преобразовании файлов PDF.

 pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt

Обязательно замените пароль паролем файла PDF.

Вы также можете комбинировать несколько флагов, чтобы получить желаемый результат. Например, чтобы преобразовать первую-третью страницы PDF-файла, защищенного паролем, в текст:

 pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt

Связанный: Как преобразовать файл PDF в изображения в Linux

Графическое преобразование PDF в текстовый файл

Если работа с командной строкой вам не по душе, вы можете конвертировать PDF-файлы в текстовые файлы с помощью графического программного обеспечения, такого как Caliber. Это приложение для управления электронными книгами, которое вы можете использовать для просмотра, организации и изменения файлов PDF в вашей системе.

Caliber доступен в официальных репозиториях дистрибутива Linux, и любой может загрузить его с помощью диспетчера пакетов.

Чтобы установить Caliber в Ubuntu и Debian:

 sudo apt install calibre

В Arch Linux:

 sudo pacman -S calibre

В дистрибутивах на основе RHEL, таких как CentOS и Fedora, вы можете загрузить Caliber с помощью DNF или Yum.

 sudo dnf install calibre
sudo yum install calibre

Как использовать Caliber для преобразования файлов PDF

После установки запустите Caliber в своей системе с помощью меню приложений . Кроме того, вы можете запустить Caliber из терминала, набрав:

 calibre

Чтобы сгенерировать текстовые файлы с помощью PDF с Caliber:

  1. Нажмите на опцию « Добавить книги» в меню.
    добавление книг в calibre linux
  2. Найдите и выберите PDF-файл, который вы хотите преобразовать.
    преобразование файлов PDF в текстовые файлы
  3. Выделите PDF-файл на центральной панели и выберите в меню « Преобразовать книги» .
    калибр в Linux
  4. В раскрывающемся списке Формат вывода выберите TXT .
    выбор файлов PDF для конвертации
  5. Наконец, нажмите ОК, чтобы продолжить.

Caliber начнет преобразование указанного PDF-файла в текстовый документ. Вы можете проверить статус процесса, нажав на опцию « Задания» , расположенную в правом нижнем углу окна.

Работа с PDF-файлами в Linux

Если вы хотите поделиться документом с кем-то, преобразование его в PDF перед отправкой – наиболее эффективный способ. Раньше пользователям приходилось устанавливать в своей системе специальную программу просмотра PDF-файлов для отображения PDF-файлов, но теперь почти каждый браузер поставляется со встроенной программой просмотра PDF-файлов.

Вы можете найти несколько приложений, которые позволяют пользователю легко просматривать и редактировать файлы PDF. Многие установки Linux поставляются с LibreOffice, пакетом офисного программного обеспечения, который можно использовать в качестве редактора PDF.