Поиск по тексту документа

Модератор: Absurd

Ответить
LexaV
Сообщения: 10
Зарегистрирован: 18 ноя 2004, 13:13

Здравствуйте!
Подскажите, плз, есть ли средства с помощью которых можно вести поиск по word, rtf, excel, pdf etc документам? Например, POI позволяет это делать (не нашел, к сожалению)? или может быть какие-то др. средства есть?
Заранее спасибо
Аватара пользователя
Oscar
Сообщения: 963
Зарегистрирован: 29 май 2004, 13:44
Откуда: Мюнхен (рожден в Киеве)
Контактная информация:

LexaV,

если проблема лишь в том, чтобы найти POI, то

Web site

Download

API Documentation

Другое дело, что я так и не понял, поддерживают ли они уже MS Word, или ещё нет.


Для PDF нужны совсем иные библиотеки, так как это к MS Office не относится.
LexaV
Сообщения: 10
Зарегистрирован: 18 ноя 2004, 13:13

спасибо за ссылку. Вопрос больше в том ищет ли он по тексту, ну и для презентаций, осуществляется ли поиск? а для pdf что может быть использовано?
Аватара пользователя
Oscar
Сообщения: 963
Зарегистрирован: 29 май 2004, 13:44
Откуда: Мюнхен (рожден в Киеве)
Контактная информация:

LexaV,

насколько я смог прочитать, в POI о PPT (ведь Power Point презентации имелись ввиду?) речь не идёт.

ищет ли POI по тексту? Сомневаюсь. Её суть работать с документами и их элементами в целом.
Но что мешает при помощи её вытащить весь текстовый content из документа и пройтись по нему регулярными выражениями?

PDF - что посоветовать, не знаю. Google выдал второй ссылкой PDFBox (an open source Java PDF library for working with PDF documents)
LexaV
Сообщения: 10
Зарегистрирован: 18 ноя 2004, 13:13

Есть подозрение, что будет медленно работать, если много документов и каждый из них тоже не маленький. Хотя, с другой стороны все равно его надо как-то читать...
Kolinus
Сообщения: 449
Зарегистрирован: 23 авг 2004, 14:02
Откуда: Минск

itext вроде умеет с ПДФ работать если я ничего не попутал (гугл тоже так думает)
В SAD - все в SAD.
Аватара пользователя
Oscar
Сообщения: 963
Зарегистрирован: 29 май 2004, 13:44
Откуда: Мюнхен (рожден в Киеве)
Контактная информация:

Kolinus,
You can't 'parse' an existing PDF file using iText, you can only 'read' it page per page.
(c) http://www.lowagie.com/iText/tutorial/ch13.html

Насколько я понял, iText - это библиотека для создания и модификации (только добавление),
но не для чтения.

Хотя я могу и ошибаться...
LexaV
Сообщения: 10
Зарегистрирован: 18 ноя 2004, 13:13

Спасибо за ответы. Буду пробовать
Ответить