Здравствуйте!
Подскажите, плз, есть ли средства с помощью которых можно вести поиск по word, rtf, excel, pdf etc документам? Например, POI позволяет это делать (не нашел, к сожалению)? или может быть какие-то др. средства есть?
Заранее спасибо
Поиск по тексту документа
Модератор: Absurd
- Oscar
- Сообщения: 963
- Зарегистрирован: 29 май 2004, 13:44
- Откуда: Мюнхен (рожден в Киеве)
- Контактная информация:
LexaV,
если проблема лишь в том, чтобы найти POI, то
Web site
Download
API Documentation
Другое дело, что я так и не понял, поддерживают ли они уже MS Word, или ещё нет.
Для PDF нужны совсем иные библиотеки, так как это к MS Office не относится.
если проблема лишь в том, чтобы найти POI, то
Web site
Download
API Documentation
Другое дело, что я так и не понял, поддерживают ли они уже MS Word, или ещё нет.
Для PDF нужны совсем иные библиотеки, так как это к MS Office не относится.
спасибо за ссылку. Вопрос больше в том ищет ли он по тексту, ну и для презентаций, осуществляется ли поиск? а для pdf что может быть использовано?
- Oscar
- Сообщения: 963
- Зарегистрирован: 29 май 2004, 13:44
- Откуда: Мюнхен (рожден в Киеве)
- Контактная информация:
LexaV,
насколько я смог прочитать, в POI о PPT (ведь Power Point презентации имелись ввиду?) речь не идёт.
ищет ли POI по тексту? Сомневаюсь. Её суть работать с документами и их элементами в целом.
Но что мешает при помощи её вытащить весь текстовый content из документа и пройтись по нему регулярными выражениями?
PDF - что посоветовать, не знаю. Google выдал второй ссылкой PDFBox (an open source Java PDF library for working with PDF documents)
насколько я смог прочитать, в POI о PPT (ведь Power Point презентации имелись ввиду?) речь не идёт.
ищет ли POI по тексту? Сомневаюсь. Её суть работать с документами и их элементами в целом.
Но что мешает при помощи её вытащить весь текстовый content из документа и пройтись по нему регулярными выражениями?
PDF - что посоветовать, не знаю. Google выдал второй ссылкой PDFBox (an open source Java PDF library for working with PDF documents)
Есть подозрение, что будет медленно работать, если много документов и каждый из них тоже не маленький. Хотя, с другой стороны все равно его надо как-то читать...
itext вроде умеет с ПДФ работать если я ничего не попутал (гугл тоже так думает)
В SAD - все в SAD.
- Oscar
- Сообщения: 963
- Зарегистрирован: 29 май 2004, 13:44
- Откуда: Мюнхен (рожден в Киеве)
- Контактная информация:
Kolinus,
Насколько я понял, iText - это библиотека для создания и модификации (только добавление),
но не для чтения.
Хотя я могу и ошибаться...
(c) http://www.lowagie.com/iText/tutorial/ch13.htmlYou can't 'parse' an existing PDF file using iText, you can only 'read' it page per page.
Насколько я понял, iText - это библиотека для создания и модификации (только добавление),
но не для чтения.
Хотя я могу и ошибаться...
Спасибо за ответы. Буду пробовать