Страница 1 из 1

Поиск по тексту документа

Добавлено: 05 апр 2006, 09:28
LexaV
Здравствуйте!
Подскажите, плз, есть ли средства с помощью которых можно вести поиск по word, rtf, excel, pdf etc документам? Например, POI позволяет это делать (не нашел, к сожалению)? или может быть какие-то др. средства есть?
Заранее спасибо

Добавлено: 05 апр 2006, 09:45
Oscar
LexaV,

если проблема лишь в том, чтобы найти POI, то

Web site

Download

API Documentation

Другое дело, что я так и не понял, поддерживают ли они уже MS Word, или ещё нет.


Для PDF нужны совсем иные библиотеки, так как это к MS Office не относится.

Добавлено: 05 апр 2006, 10:11
LexaV
спасибо за ссылку. Вопрос больше в том ищет ли он по тексту, ну и для презентаций, осуществляется ли поиск? а для pdf что может быть использовано?

Добавлено: 05 апр 2006, 10:50
Oscar
LexaV,

насколько я смог прочитать, в POI о PPT (ведь Power Point презентации имелись ввиду?) речь не идёт.

ищет ли POI по тексту? Сомневаюсь. Её суть работать с документами и их элементами в целом.
Но что мешает при помощи её вытащить весь текстовый content из документа и пройтись по нему регулярными выражениями?

PDF - что посоветовать, не знаю. Google выдал второй ссылкой PDFBox (an open source Java PDF library for working with PDF documents)

Добавлено: 05 апр 2006, 13:06
LexaV
Есть подозрение, что будет медленно работать, если много документов и каждый из них тоже не маленький. Хотя, с другой стороны все равно его надо как-то читать...

Добавлено: 05 апр 2006, 17:18
Kolinus
itext вроде умеет с ПДФ работать если я ничего не попутал (гугл тоже так думает)

Добавлено: 05 апр 2006, 17:39
Oscar
Kolinus,
You can't 'parse' an existing PDF file using iText, you can only 'read' it page per page.
(c) http://www.lowagie.com/iText/tutorial/ch13.html

Насколько я понял, iText - это библиотека для создания и модификации (только добавление),
но не для чтения.

Хотя я могу и ошибаться...

Добавлено: 06 апр 2006, 11:19
LexaV
Спасибо за ответы. Буду пробовать