DSpace и редиректы

DSpace — штука с идеологией, системой и правилами. Это означает в частности, что пройдя по ссылке пользователь должен получить именно то, что изначально было доступно по ссылке, либо не получить ничего (получить сообщение об ошибке).

Например, 404-ая страница Электронной библиотеки Белинского выглядит так:

uraic

А немного видоизмененная страница Электронного архива УРФУ так:
urfu

Суть модификации описана тут.

Механизм редиректов на базе urlrewrite так же мной описывался, теперь пришло время описать более детально его работу и решение с его помощью типичных (из моей практики) проблем с индексом поисковых систем в частности и ссылок, как внутренних, так и внешних, в целом. И так, наверняка, если зарегистрировать ЛЮБОЙ электронный архив в Googe Webmaster Tools или Yandex Webmaster, через менсяц параметр «Ошибки индексирования» перевалит за сотню, а может и за тысячу, а может и за десять. Рекорд моей практики — 33 тысячи 404-ых ошибок. Кажется, что такое количество ошибок для архива с парой тысяч документов — это очень плохо и неисправимо, но как показала практика, при правильном планировании проблема решается за 2-3 месяца.

Выделенные мной ошибки, которые я называю типовыми — чистая вкусовщина. Методы их решения не отличаются изяществом и оригинальностью, дальнейший текст предназначен для аудитории, умеющей читать регекспы и знакомой с синтаксисом urlwewrite.

 

Возможные ошибки индексации файлового фонда

1. Перезагрузка фонда.

1.1. Файл был перезагружен под тем же названием в тот же документ:

<rule><from>/ID/N_OLD/filename\.pdf</from><to type=»permanent-redirect»>/ID/N_NEW/filename.pdf</rule>

1.2. Файл был перезагружен под иным названием в тот же документ:

<rule><from>/ID/N_OLD/filename_old\.pdf</from><to type=»permanent-redirect»>/ID/N_NEW/filename_new.pdf</rule>

1.3. Файл был перезагружен в иной документ:

<rule><from>/ID/N/filename\.pdf</from><to type=»permanent-redirect»>/static/error.html</rule>

or

<rule><from>/ID_OLD/N_OLD/filename\.pdf</from><to type=»permanent-redirect»>/ID_NEW/N_NEW/filename.pdf</rule>

1.4. Не верные ссылки на файлы из сети:

<rule><from>/bitstream/HDL_PREF/ID/N/filena\.\.</from><to type=»permanent-redirect»>/static/error.html</to></rule>

or

<rule><from>/bitstream/HDL_PREF/ID/N/$</from><to type=»permanent-redirect»>/handle/HDL_PREF/ID/</to></rule>

1.5. Документ был удален:

<rule><from>/bitstream/HDL_PREF/ID/N/file.\pdf</from><to type=»permanent-redirect»>/static/error.html</to></rule>

2. Ссылки в файлах.

2.1. Файлимеетвнутренниессылки:

<rule><from>/vww\.drsoroush\.com/Biographv-P\.htm$</from><to type=»permanent-redirect»>/static/error.html</to></rule>

2.2. Файл имеет переходы по своей структуре:

Пока не решил что делать со ссылками вида /bitstream/10995/1459/%20%20%20%20%20%20%20/korunov/%%20%20/%2020/%20%20_%20%/MS%20Project.htm

2.3. Файл собран не верно и ссылается на локальные пути:

Аналогично 2.2


Возможные ошибки индексации текстового индекса

1. Изменение handle префикса:

<rule><from>/bitstream/HDL_PREF_OLD</from><to type=»permanent-redirect»>/bitstream/HDL_PREF_NEW</to></rule>

and

<rule><from>/handle/HDL_PREF_OLD</from><to type=»permanent-redirect»>/handle/HDL_PREF_NEW</to></rule>

2. Перемещение раздела, коллекции, документа:

<rule><from>/handle/HDL_PREF/ID_OLD/</from><to type=»permanent-redirect»>/handle/HDL_PREF/ID_NEW/</to></rule>

and

<rule><from>/handle/HDL_PREF/ID_OLD$</from><to type=»permanent-redirect»>/handle/HDL_PREF/ID_NEW</to></rule>

3. Удаление раздела, коллекции, документа:

<rule><from>/handle/HDL_PREF/ID_OLD$</from><to type=»permanent-redirect»>/static/error.html</to></rule>

and

<rule><from>/handle/HDL_PREF/ID_OLD$</from><to type=»permanent-redirect»>/community-list</to></rule>

4. Не верные ссылки на документы из сети:

<rule><from>/handle/HDL_PREF&</from><to type=»permanent-redirect»>/community-list</to></rule>

or

<rule><from>/handle/HDL_PREF/123\.\.\.$</from><to type=»permanent-redirect»>/community-list</to></rule>

and/or

<rule><from>/handle/HDL_PREF/123\.\.\.$</from><to type=»permanent-redirect»>/static/error.html</to></rule>


Добавить к вышесказанному стоит следующее:

Что такое /static/error.html можно посмотреть здесь.

После всяких драматических изменений сервис обязательно нуждается в проверке. В основном в проверке на то, не сломались ли «правильные» ссылки. Я проверяю так — используя инструмент для внешней генерации сайтмапа прогоняю генерацию этого самого сайтмапа с глубиной 2-4 уровня и смотрю количество 302-ых переходов. Если из меньше десятка и все они ведут по понятным путям типа /mydspace /asmin и так далее — всё ок, если их куча — где-то косяк. Обычно, я использую этот инструмент.

Ну и картинка без комментариев, хотя нет, с комментарием… не перегружайте фонд бездумно!

urfu2

Запись опубликована в рубрике Библиотека с метками . Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *