Платформа Microsoft для бизнес-анализа

Скачать статью в PDF

Компоненты платформы бизнес-аналитики

Любая платформа аналитики условно может быть разбита на следующие элементы:

  • ETL-компоненты, отвечающие за извлечение, трансформацию и загрузку данных;
  • Хранилище данных, позволяющее консолидировать данные из различных систем, оптимизировать быстродействие работы;
  • Аналитическую модель, непосредственно на которой выполняется алгоритмизация расчета показателей, формируются измерения и меры. Наибольшую популярность получили OLAP-кубы;
  • Клиентские инструменты, позволяющие получать доступ к данным.

Три персоны бизнес-аналитики

alt

В процессе анализа данных можно выделить три роли, которые так или иначе присутствуют всегда:

  • Администратор баз данных. Лицо, являющееся владельцем и управленцем данных. Технический специалист, как правило, сильно загруженный вопросами поддержания бесперебойности работы бизнес-приложений.
  • Аналитик. Лицо, которому бизнес ставит задачи по формированию показателей и отчетности. Аналитик должен понять, что хочет от него бизнес, перевести это на технический язык и добиться от администратора БД данных
  • Бизнесмен. Собственник бизнеса, которого техническая составляющая вопроса получения актуальных данных (которые нужны «вчера») не должна волновать. Задается вопрос – на него должен быть получен ответ.

Ключевой фигурой в процессе анализа данных является аналитик, который должен быть чуть-чуть техническим специалистом, чуть-чуть разбираться в бизнесе и глубоко знать процессы построения аналитических моделей и формирования отчетности. Выделенная должность аналитика есть, как правило, только в крупных организациях. Кроме того, как внутренний сотрудник, аналитик часто бывает вовлечен в «политику» взаимодействия «технарей» и «топ-менеджмента», что неблагоприятно может сказываться на результатах работы в части оперативности решения поставленных задач. Мы занимаем в проектах роль «Аналитика», обладаем глубокой отраслевой и технической экспертизой и абстрагированы от «политики» внутри организации.

Промышленный подход

alt

В случае классического подхода к построению систем корпоративной отчетности на платформе Microsoft интеграция (ETL) выполняется посредством компонентов MS SQL:

  • Integration Services (SSIS) – ETL-приложение, позволяющее разрабатывать пакеты извлечения, трансформации и загрузки данных (extract-transform-load). Основным преимуществом выполнять интеграцию с учетными системами заказчика посредством Integration Services является возможность графического построения потоков обработки данных, упрощенная отладка, логирование, разворачивание пакетов и настройка расписания выполнения. Integration Services предоставляет практически безграничные возможности по интеграции за счет возможности подключения пользовательских (custom) компонентов и включения программного кода на C# в процесс обработки данных;
  • MDS – Master Data Services позволяет выполнять обогащение данных в хранилище данных и вести пользовательские справочники. Удобен наличием веб-интерфейса и возможностью интеграции (заполнения данных) через Excel;
  • DQS – Data Quality Services обеспечивает очистку данных посредством создания базы знаний;

В качестве хранилища данных используется MS SQL.

Аналитическая модель создается в приложении Analysis Services, которое позволят подключаться к источникам данных, создавать измерения и меры, то есть реализовывать заданную логику расчета показателей и аналитические разрезы.

Клиентскими инструментами являются либо Excel (берущий начало с 1985 года и остающийся незаменимым инструментом для работы с данными), либо корпоративный портал SharePoint, развернутый в организации.

Self Service BI

alt

В случае реализации сценария «самообслуживания пользователей» (Self Service BI) весь процесс построения системы аналитики может быть воссоздан в офисных продуктах (Excel) без использования серверов непосредственно на рабочем месте пользователя. В этом случае ETL, хранилище данных, модель будут реализовываться непосредственно в Excel.

Для реализации задач интеграции (ETL) кроме прямой загрузки в Excel либо в PowerPivot, можно также использовать новый сервис Power Query. Он представляет собой надстройку к Excel c разработанным специально языком запросов, которая позволяет пошагово (так же, как и в SSIS) выполнять манипуляции с данными. Реализован простой в использовании механизм парсинга страниц веб-сайтов, а также поиск данных в Internet и работа с результатами поисковых запросов.

Хранение данных выполняется либо на листах Excel, либо в модели PowerPivot. Последний вариант обеспечивает высокую компрессию данных.

Построение модели данных выполняется в PowerPivot, который раньше был надстройкой к Excel, а с 2013 Office стал его неотъемлемой частью. Механизм вычисления показателей и хранения данных в PowerPivot отличается от OLAP-кубов, быстродействие и компрессия достигаются за счет режима работы in-memory и технологии VertiPaq. Идеология работы с моделью отличается от Analysis Services, модель PowerPivot больше похожа на реляционную базу данных, нежели на OLAP-куб.

Набор клиентских инструментов теперь доступен и в «облаке» (PowerBi for Office 365). Также непосредственно в Excel произошло существенное расширение по визуализации данных.

Гибридный вариант

alt

Возможен гибридный вариант при реализации сценария, в котором Аналитик сам подготавливает модель в Excel, а IT-служба предприятия далее разворачивает ее на серверах и предоставляет доступ посредством классических инструментов. Преимущество тут кроется в том, что за ETL отвечаем сам Аналитик, соответственно он способен быстрее собрать те данные, которые ему нужны, минуя этап написания ТЗ и согласования с Администратором БД.

Что для чего?

Промышленный вариант может все без ограничений, в этом его несомненный плюс. Он гарантирует масштабируемость любого решения с изначально «правильной» архитектурой, а это критически важный параметр, потому что, как правило, решение по бизнес-аналитике лавинообразно начинает обрастать новым функционалом после первоначального внедрения, если система действительно используется. Соответственно, стоимость лицензий и необходимой инфраструктуры достаточно высокая, что ограничивает его применение на небольших проектах. Именно это ограничение устранено в подходе SelfServiceBI, поскольку фактически все решение реализуется на офисных продуктах (Excel и Office365).

Вариант SelfServiceBI незаменим для решения локальных задач, разработки демо-примеров, создания предпроектных макетов. При промышленной эксплуатации вы очень быстро найдете «дно» (определенный ряд ограничений). Сама архитектура PowerPivot предполагает пропорциональный рост мощности рабочей станции с ростом объема данных в модели и сложности вычислений (особенно, оперативной памяти), поскольку режим работы модели in-memory. Использовать какую-либо оптимизацию, к которой прибегают при промышленном подходе, уже не получится. Кроме того, есть задачи, которые достаточно просто реализуются на MDX (язык запросов к OLAP-кубам), имеется множество примеров реализации в открытых источниках, но требуют очень сложно решения на DAX (язык запросов в табулярных моделях PowerPivot).

Гибридный подход может быть использован как в случае необходимости портирования предпроектного макета, созданного бизнес-аналитиком, в существующую инфраструктуру предприятия с сохранением определенной разработчиком бизнес-логики модели. Если бизнес-аналитик настолько продвинут, что может сам построить модель в PowerPivot, мы сможем использовать его наработки без дополнительных усилий, если есть уже работающее решение по бизнес-аналитике и инфраструктура. Наиболее реалистичный сценарий такого подхода, когда есть очень узкая задача, которую можно решить силами аналитического отдела, но впоследствии ее нужно интегрировать в существующее решение.

Обобщая, можно с уверенностью сказать, что для того, чтобы прикоснуться к бизнес-аналитике, понять, что это такое, посмотреть графики, «покрутить» цифры – достаточно просто запустить Excel и попробовать построить свою первую модель! Когда понятно, что проект становится глобальным – пора переходить на MS SQL.