Статистика в DSpace или несколько слов о том, какие цифры подавать начальству

Обычно ближе к концу года коллеги начинают задавать вопросы о статистике и уточняют какие цифры лучше подавать в виде статистики посещаемости и как в случае чего их обосновать. Этот вопрос на самом деле куда более сложен, чем может показаться на первый взгляд. Дальнейшее повествование я буду вести на примере Электронного архива Российского государственного профессионально-педагогического университета.

С первого взгляда очевидным может показаться решение, подразумевающее использование сервиса Google analytics, благо, DSpace достаточно давно поддерживает его штатно и в jspui и в xmlui, достаточно лишь вписать уникальный идентификатор в dspace.cfg, либо, использование сервиса Яndex метрика, код которого достаточно легко добавить на страницы, но как показывает практика, данные из этих сервисов зачастую не полны. Например, таким способом невозможно учесть скачивание PDF файла по прямой ссылке, когда попросту не срабатывает код отслеживания, да и «поймать» робота, который игнорирует javascript, тоже не возможно. Отчасти данная проблема решается интеграцией служб мониторинга с инструментами вебмастера, но лишь отчасти. Отчасти эти проблемы можно решить таким способом, но опять лишь отчасти, и не во всех UI.

Тем не менее, игнорировать такие инструменты как Google analytics и Яndex метрика не стоит. В случае упомянутого выше репозитория они показывают примерно одно и то же — 100 000 просмотров (не уникальных посетителей, не уникальных хостов и пр.) в год. С одной стороны не много, с другой — не мало. Так же хотелось бы отметить что все фасетные фишки и поиск так же выпадают из статистики, и если с точки зрения количества просмотров это как-то можно оправдать, то объективность отражения глубины просмотра и времени отказа страдает.

Следующий способ — стандартная статистика Dspace, та, которая теперь legacy. Для большей наглядности и простоты, я взял да и сложил просмотры файлов, описаний, коллекций и разделов за 12 месяцев — получилось около 6 500 000 «раз». А абзацем выше было 100 000 «раз». Когда сложил только файлы за 12 месяцев — вышло 4 500 000 «раз», что в общем не меняет порядка разницы. Здесь важно отметить, что у Dspace есть стандартные инструменты для обновления списка роботов и пр. посетителей, которых из статистики следует исключить. Настраивается всё это здесь /dspace/config/spiders, процедура настройки документирована слабо. У меня настройка проведена с использованием данных из следующего метода, так что, результаты сойдутся 🙂

Последний (в этом повествовании) способ заключается в банальном анализе логов сервера. Получается такая вот картина:

Если просто взять, да построить табличку посещаемости, получается 70+ мегапосещений за год.


Если вычесть из этого localhost (активность SOLR), то останется уже менее 20 мегапосещений. SOLR — он такой….


Если вычесть помимо localhost еще и известных роботов, то останется уже менее 7 000 000 посещений. Предыдущий способ, напомню, показывал около 6 500 000 «штук».

Если пойти чуть дальше и вычесть все css, jpg, ico и пр. служебные файлы, получится как раз на 500 тысяч меньше и статистика по логам сойдётся с внутренней. Информация о роботах для внутренней статистики была получена из логов.

Что из этого «правда». Аналитика с Метрикой, или внутренняя статистика — это даже не вопрос. И то и другое — правда. А вот какие данные подавать начальству — это уже каждый решает сам 🙂

С новым годом!

Запись опубликована в рубрике Библиотека с метками , . Добавьте в закладки постоянную ссылку.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *