Страница 1 из 1
Поиск по тексту документа
Добавлено: 05 апр 2006, 09:28
LexaV
Здравствуйте!
Подскажите, плз, есть ли средства с помощью которых можно вести поиск по word, rtf, excel, pdf etc документам? Например, POI позволяет это делать (не нашел, к сожалению)? или может быть какие-то др. средства есть?
Заранее спасибо
Добавлено: 05 апр 2006, 09:45
Oscar
LexaV,
если проблема лишь в том, чтобы найти POI, то
Web site
Download
API Documentation
Другое дело, что я так и не понял, поддерживают ли они уже MS Word, или ещё нет.
Для PDF нужны совсем иные библиотеки, так как это к MS Office не относится.
Добавлено: 05 апр 2006, 10:11
LexaV
спасибо за ссылку. Вопрос больше в том ищет ли он по тексту, ну и для презентаций, осуществляется ли поиск? а для pdf что может быть использовано?
Добавлено: 05 апр 2006, 10:50
Oscar
LexaV,
насколько я смог прочитать, в POI о PPT (ведь Power Point презентации имелись ввиду?) речь не идёт.
ищет ли POI по тексту? Сомневаюсь. Её суть работать с документами и их элементами в целом.
Но что мешает при помощи её вытащить весь текстовый content из документа и пройтись по нему регулярными выражениями?
PDF - что посоветовать, не знаю. Google выдал второй ссылкой
PDFBox (an open source Java PDF library for working with PDF documents)
Добавлено: 05 апр 2006, 13:06
LexaV
Есть подозрение, что будет медленно работать, если много документов и каждый из них тоже не маленький. Хотя, с другой стороны все равно его надо как-то читать...
Добавлено: 05 апр 2006, 17:18
Kolinus
itext вроде умеет с ПДФ работать если я ничего не попутал (гугл тоже так думает)
Добавлено: 05 апр 2006, 17:39
Oscar
Kolinus,
You can't 'parse' an existing PDF file using iText, you can only 'read' it page per page.
(c)
http://www.lowagie.com/iText/tutorial/ch13.html
Насколько я понял, iText - это библиотека для создания и модификации (только добавление),
но не для чтения.
Хотя я могу и ошибаться...
Добавлено: 06 апр 2006, 11:19
LexaV
Спасибо за ответы. Буду пробовать