Как извлечь текст или картинку из PDF-файлов
  Hi-Tech
Рейтинг:
0


Программы компании Tracker Software, о которых уже рассказывалось в наших статьях, умеют не только создавать и просматривать pdf-файлы, но и выполнять ряд других, весьма интересных и полезных действий. Можно ли автоматизировать преобразование офисных документов в формат pdf в пакетном режиме? Можно ли автоматизировать извлечение изображений, текста? Каким образом легко и просто объединить или разделить документы? Эти и иные задачи решаются с помощью продуктов этой компании. Начнем с пакетного преобразования офисных документов. Этой цели служит программа OFFice2PDF, входящая в состав пакета PDF-XChange PRO. Эта программа позволяет выполнять преобразование таких типов файлов, как doc, xls, html. При этом требуется, чтобы на компьютере были установлены соответствующие программы офиса. Работа с программой заключается в том, что в рабочее окно добавляются документы, которые должны быть конвертированы. Добавление можно делать как через интерфейс программы, так и обычным перетаскиванием их из "Проводника" в рабочее окно программы. По мере добавления файлы распределяются по поддерживаемым типам. Прежде чем выполнять преобразование, программу можно настроить. Ее настройки полностью соответствуют тем, что имеются и в плагине для офисных приложений. Дополнительно можно выбрать опцию показа интерфейса, соответствующего исходному документу, назначить папку для сохранения, а также включить автоматическую обработку из папок, которые отслеживаются программой. В этом случае обработка будет выполняться по мере появления новых файлов. После выполнения настроек достаточно нажать кнопку "Перейти", и программа выполнит установленные задания. В состав PDF-XChange PRO входят плагины для различных браузеров, с помощью которых можно конвертировать в pdf-файл веб-страницы или выделенные части этих страниц. Как дополнительная опция - преобразование ссылок для отображения в pdf-файле. А теперь вернемся к основному продукту - PDF-Tools - и рассмотрим его дополнительные возможности. Работа с закладками В документе, с которым вы хотите работать, могут как присутствовать, так и отсутствовать закладки. Это вы сможете увидеть сразу после открытия документа ("Дерево закладок"). В рабочем окне можно выполнять ряд действий - искать закладки, добавлять, редактировать, удалять или генерировать закладки в автоматическом режиме. При изменении или добавлении закладки вы можете изменить или назначить ее порядковый номер, назначить тип - "просмотр страницы" или "веб-ссылка", режим, единицы измерения и место расположения закладки. Генерация закладки отличается тем, что здесь можно только присвоить название и режим отображения (по умолчанию предлагается режим "подогнать под страницу"). Разделить/объединить Существующие файлы можно объединить или разделить на части. Добавив исходный файл в список для обработки, можно также уточнить диапазон страниц, с которыми будет проводиться дальнейшая работа. Далее необходимо выбрать метод группирования страниц. Возможны варианты - помещение выбранных страниц в один документ, каждую страницу - в отдельный документ, поместить в один документ в обратном порядке либо определить собственную группировку страниц. Но и после выбора метода группировки на следующем шаге имеется возможность просмотреть получившуюся последовательность страниц в каждом выходном файле и при необходимости переставить страницы в нужном порядке. На последнем этапе выполняется настройка формата выходного pdf-файла. Она аналогична настройкам, выполняемым при создании новых файлов. Простая оптимизация PDF В рамках такой оптимизации решаются три задачи - оптимизация используемых шрифтов, оптимизация сжатия потоков и удаление неиспользуемых именованных объектов. Это позволяет уменьшить размер файла без снижения его качества. Оптимизация шрифтов заключается в удалении дублирующих шрифтов. Кроме того, делается попытка объединить простые шрифты в один, если это возможно. Оптимизация шрифтов настоятельно рекомендуется после слияния нескольких документов в один. Оптимизация потоков применяется с сохраненным в рамках pdf-файла двоичным файлам. Может сжимать как необработанные потоки, так и изменять степень сжатия у обработанных ранее. Изменение свойств страниц Применяется в тех случаях, когда требуется переформатирование документа с изменением размеров страниц. Здесь можно выбрать страницы, которые должны быть переформатированы, установить для них размеры, поля отступа, угол разворота. Извлечение страниц Очень простой, но иногда крайне удобный инструмент. С его помощью можно извлечь из текущего документа любую страницу или группу страниц и поместить их либо в новый файл, либо в отдельные документы. После выбора способа и варианта извлечения можно просмотреть и изменить последовательность, в которой страницы будут выгружаться. Извлечение изображений А вот такого инструмента применять еще не доводилось. Он позволяет определить в открытом документе графические изображения, а затем экспортировать их в bmp-формат (для одностраничных) или tiff-формат (для многостраничных). Выбрать, какие изображения сохранять, а какие нет, невозможно. Только все. Из дополнительных настроек - возможность сохранения изображений таким же образом, как они размещаются на страницах документа, настройка папки и наименований сохраняемых изображений. Преобразование в текстовый формат С помощью данной программы можно очень легко выполнить выгрузку документов в текстовый формат (поддерживаются форматы RTF, DOC, TXT). Имеется возможность выгружать каждый документ в отдельный файл (если их выбрано несколько), каждую страницу в отдельный файл либо все выбранные документы в один результирующий файл. Также имеется возможность выбрать диапазон выгружаемых страниц для каждого включенного в список файла. Если в исходном документе есть изображения, то при преобразовании в RTF- или DOC-формат они также будут экспортированы. При этом можно самим выбрать формат экспорта. Добавление гиперссылок Вы можете простым способом добавить в документ любое количество ссылок. Для этого необходимо лишь выбрать в тексте документа слово или словосочетание и связать с ним ссылку на веб-ресурс, связку можно сделать зависимой от регистра. Таких связок может быть множество. Как дополнительные настройки для каждой отдельной ссылки - возможность запрета ее отображения и печати. Для видимой ссылки можно настроить ее цвет и ширину. В результате обработки в документе будут найдены все соответствующие настроенным ссылкам слова или словосочетания и к каждому из них будет привязана соответствующая ссылка. Перекрывающий PDF Еще одна интересная возможность - создание перекрывающих документов из двух pdf-файлов. Для этого выбирается основной файл, а затем - дополнительный (это может быть специально созданный файл, который можно использовать в качестве подложки для основного документа, в качестве колонтитулов и так далее). В настройках слияния файлов можно выбрать различные опции. Так, если по умолчанию второй файл размещается на заднем плане, то можно сделать наоборот - поместить его поверх основного файла. Если второй файл меньше основного, то можно применить дополнительные настройки - использовать или отключить повторение файла, повторять последнюю страницу более короткого либо использовать непрерывное повторение более короткого файла. Настраивается также взаимное размещение перекрывающихся страниц с выравниванием по горизонтали и вертикали. Отправка файлов В любом вышеописанном инструменте имеется возможность отправки полученных документов по электронной почте. Эта же возможность, но уже без ограничения по типу отправляемых файлов выделена в отдельный инструмент. При его использовании можно выбрать один или несколько файлов, заполнить необходимые данные для отправки (адреса, тема письма, содержимое). Отправка может выполняться либо через имеющийся почтовый клиент, либо через SMTP-сервер. В последнем случае необходимо добавить и параметры этого сервера. Кроме отправки по почте файлы можно загрузить на FTP- или HTTP-сервер. Понятно, что в этом случае надо выполнить соответствующие настройки - указать адрес, логин, пароль и все остальное, что требуется для подключения к серверу. Сохранение настроек Чтобы не приходилось каждый раз выполнять одни и те же настройки, используемые при обработке документов, их можно сохранить во внешнем xml-файле, а при следующей работе с программой просто загрузить их. Это удобно в тех случаях, когда вы используете несколько стандартных сценариев работы. При сохранении настроек во внешнем файле вы легко сможете переходить от одного сценария к другому.


Поделиться
Комментарии

Ваше имя
E-mail
Ваш комментарий
Введите код, который вы видите на картинке
Код