DSpace и поисковые индексы в SOLR

Суть в том, что особенность 3 и 4 версии обнаружилась нехорошая:

Допустим, делаешь dspace index-init. Метаданных у тебя куча, и делается процедура минут 20, во время которой сервис лежит. Потом делаешь dspace filter-media -f, допустим у тебя при этом десять тысяч документов. Процедура делается часа четыре, но в итоге все счастливы.

 

Работает и полнотекстовый поиск и поиск по метаданным. Все счастливы и пьют шампанское на автостоянке… ведь эту процедуру нужно сделать лишь однажды после обновления.

 

НО! Допустим, захотелось нам взять, да и поправить одну запись по метаданным, ну забыли кавычку закрыть или опечатка где-то. Поправили, дали команду dspace index-update и… оказывается, теперь и кэш поиска по метаданным и кэш поиска по полному тексту для каждого ITEM — есть одно целое и лежит в SOLR 🙂 В общем, в результате разовой или что хуже, пакетной правки метаданных и последующего index-update мы получаем исчезновение полнотекстовой части индекса обновляемых ITEM’ов. А это значит — filter-media -f и четыре часа. Круто?

 

В принципе есть вариант разнести поисковый и полнотекстовый индексы в discovery и solr, но что делать если я вдруг не хочу discovery здесь и сейчас? Правильно, делать filter-media -f.

Запись опубликована в рубрике Библиотека с метками , . Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *