Как преобразовать файл PDF в текстовый документ в Linux
В отличие от текстового файла, вы не можете редактировать PDF напрямую. Существует несколько способов создания файлов PDF с использованием текста. Но что, если вы хотите пойти другим путем и преобразовать PDF-файлы в текстовые файлы?
К счастью, Linux позволяет вам легко изменять эти файлы из терминала. В этой статье будет продемонстрировано, как преобразовать файл PDF в текстовый документ в Linux.
Преобразование PDF в текст из терминала
Poppler – это программная библиотека, используемая для визуализации и изменения файлов PDF. Он содержит служебную программу, известную как pdftotext , которая позволяет пользователям создавать текстовые файлы из PDF-файлов. Поскольку poppler-utils не входит в стандартные пакеты Linux, вам придется установить его вручную с помощью диспетчера пакетов.
В Ubuntu и Debian:
sudo apt install poppler-utils
Чтобы установить Poppler в Arch Linux:
sudo pacman -S poppler
Установить пакет poppler-utils в CentOS, Fedora и другие дистрибутивы на основе RHEL очень просто.
sudo dnf install poppler-utils
sudo yum install poppler-utils
Преобразование всего PDF в текст
Основной синтаксис команды pdftotext:
pdftotext [options] pdffile textfile
… где pdffile – это абсолютный или относительный путь к файлу PDF, а текстовый файл – это имя выходного файла.
Например, чтобы преобразовать lorem-ipsum.pdf в текстовый файл:
pdftotext lorem-ipsum.pdf text.txt
Если в файле, который вы конвертируете, есть водяные знаки или невыровненный текст, вы можете удалить их в выводе с помощью флага -nodiag .
pdftotext -nodiag lorem-ipsum.pdf random.text
Обработка страниц в определенном диапазоне
Используйте флаг -f и -l, если вы хотите преобразовать страницы, попадающие в определенный диапазон. Например, чтобы преобразовать страницы с первой по пятую в lorem-ipsum.pdf в текст:
pdftotext -f 1 -l 5 lorem-ipsum.pdf output.txt
Чтобы преобразовать только первую страницу файла PDF:
pdftotext -f 1 -l 1 lorem-ipsum.pdf output.txt
Преобразование PDF-файлов, защищенных паролем, в текст
Pdftotext может даже конвертировать PDF-файлы, защищенные паролем, в текстовые файлы. Флаги -upw и -opw , которые обозначают пароль пользователя и пароль владельца соответственно, заботятся о процессе аутентификации при преобразовании файлов PDF.
pdftotext -upw password lorem-ipsum.pdf output.txt
pdftotext -opw password lorem-ipsum.pdf output.txt
Обязательно замените пароль паролем файла PDF.
Вы также можете комбинировать несколько флагов, чтобы получить желаемый результат. Например, чтобы преобразовать первую-третью страницы PDF-файла, защищенного паролем, в текст:
pdftotext -f 1 -l 3 -upw password lorem-ipsum.pdf output.txt
Графическое преобразование PDF в текстовый файл
Если работа с командной строкой вам не по душе, вы можете конвертировать PDF-файлы в текстовые файлы с помощью графического программного обеспечения, такого как Caliber. Это приложение для управления электронными книгами, которое вы можете использовать для просмотра, организации и изменения файлов PDF в вашей системе.
Caliber доступен в официальных репозиториях дистрибутива Linux, и любой может загрузить его с помощью диспетчера пакетов.
Чтобы установить Caliber в Ubuntu и Debian:
sudo apt install calibre
В Arch Linux:
sudo pacman -S calibre
В дистрибутивах на основе RHEL, таких как CentOS и Fedora, вы можете загрузить Caliber с помощью DNF или Yum.
sudo dnf install calibre
sudo yum install calibre
Как использовать Caliber для преобразования файлов PDF
После установки запустите Caliber в своей системе с помощью меню приложений . Кроме того, вы можете запустить Caliber из терминала, набрав:
calibre
Чтобы сгенерировать текстовые файлы с помощью PDF с Caliber:
- Нажмите на опцию « Добавить книги» в меню.
- Найдите и выберите PDF-файл, который вы хотите преобразовать.
- Выделите PDF-файл на центральной панели и выберите в меню « Преобразовать книги» .
- В раскрывающемся списке Формат вывода выберите TXT .
- Наконец, нажмите ОК, чтобы продолжить.
Caliber начнет преобразование указанного PDF-файла в текстовый документ. Вы можете проверить статус процесса, нажав на опцию « Задания» , расположенную в правом нижнем углу окна.
Работа с PDF-файлами в Linux
Если вы хотите поделиться документом с кем-то, преобразование его в PDF перед отправкой – наиболее эффективный способ. Раньше пользователям приходилось устанавливать в своей системе специальную программу просмотра PDF-файлов для отображения PDF-файлов, но теперь почти каждый браузер поставляется со встроенной программой просмотра PDF-файлов.
Вы можете найти несколько приложений, которые позволяют пользователю легко просматривать и редактировать файлы PDF. Многие установки Linux поставляются с LibreOffice, пакетом офисного программного обеспечения, который можно использовать в качестве редактора PDF.