Быстрый, строчный полнотекстовый поиск для структуры каталогов Unix
Я пытаюсь создать графический интерфейс для поиска по большому количеству огромных файлов конфигурации (около 60000 файлов, каждый размером от 20 КБ до 50 МБ). Эти файлы также часто обновляются (~3 раза в день).
До сих пор я нашел SOLR и Sphinx, но не нашел способа заставить их вернуть список подходящих строк, включая номер строки для каждого соответствующего документа.
В настоящее время мы конвертируем каждый текстовый файл в XML:
<xml>
<line number="1">foobar</line>
<line number="2">barfoo</line>
...
</xml>
и сохраните результат в eXist-db. Однако хранение документов происходит слишком медленно, поэтому нам нужна альтернатива.
Есть идеи получше?
1 ответ
Мнение: Если у вас есть большие объемы изменчивых текстовых данных, к которым вам нужен быстрый доступ, преобразование их в XML усложнит решение ваших проблем.
Есть идеи получше?
Оставить файлы как текст и использовать Lucene?
(Я предполагаю, что grep
не режет)