Коллеги, по мере того как растет обьем данных на диске возникает вопрос поиска и его скорости в этом массиве данных, состоящем из большого количества разных по структуре и размеру файлов
Поиск через обычные grep, ack, ag или rg занимает кучу времени и, соответственно, возникает вопрос индексирования. Пробовал elasticsearch (не устроила скорость заливки данных и форматирования входящих данных, даже с учетом фильтров logstash), mongodb (заливка json происходит более быстро, но скорость все равно не устраивает). Пробовал свой вариант индексации через приведение к единому формату и общему первому полю, с последующим разбитием на папки/файлы по индексам 0-9, a-z (аналогично тому, что сделано в Breach Compilation). Такой подход позволил получить серьезный прирост в скорости поиска, но по мере увеличения размера базы эффективность существенно снижается.
Соответственно вопрос: как лучше всего своими силами, локально, организовать работу и быстрый поиск в большом массиве данных, хотя бы по первому полю, после приведения к единому формату?
Поиск через обычные grep, ack, ag или rg занимает кучу времени и, соответственно, возникает вопрос индексирования. Пробовал elasticsearch (не устроила скорость заливки данных и форматирования входящих данных, даже с учетом фильтров logstash), mongodb (заливка json происходит более быстро, но скорость все равно не устраивает). Пробовал свой вариант индексации через приведение к единому формату и общему первому полю, с последующим разбитием на папки/файлы по индексам 0-9, a-z (аналогично тому, что сделано в Breach Compilation). Такой подход позволил получить серьезный прирост в скорости поиска, но по мере увеличения размера базы эффективность существенно снижается.
Соответственно вопрос: как лучше всего своими силами, локально, организовать работу и быстрый поиск в большом массиве данных, хотя бы по первому полю, после приведения к единому формату?