Пример использования блока ETL в Statistica
ETL – аббревиатура от Extract, Transform, Load. Дословный перевод: Извлечение, Преобразование, Загрузка.
Под ETL часто подразумевают как отдельную систему класса BI (или её компоненту), так и этап в анализе данных.
Необходимость в ETL обусловлена разнообразием источников, в которых хранятся данные. Причем для проведения комплексного анализа зачастую требуется анализировать данные из разных источников совместно.
Источники могут сильно отличатся как платформами, так и внутренней архитектурой: структура таблиц, разные справочники, различная детализация данных.
Например, на производстве потоковые данные могут хранится в системе PI, а результаты прецизионных лабораторных замеров в системе LIMS. Причем разрешение данных в PI системе может быть доли секунды, а в LIMS – часы и даже сутки.
Аналогично, может возникнуть задача компоновки данных из ERP, CRM, систем веб-аналитики и т.д.
Этапы ETL процесса можно представить следующим образом:
Пакет Statistica может использоваться как инструмент для ETL процедур.
Statistica позволяет импортировать данные из различных источников:
Statistica имеет обширный набор инструментов для подготовки и чистки данных:
Кроме того, в Statistica реализован специализированный инструмент для «склеивания» данных из разных источников, блок ETL.
Данные средства позволяют производить объединение таблиц, делать агрегацию с требуемой детализацией данных. При этом программа использует переменные с меткой времени и/или с уникальным номером объекта анализа – ID.
Полученные таблицы могут быть сохранены как во внутреннем формате Таблиц Statistica для дальнейшего анализа, так и экспортированы во внешние ресурсы: файлы Excel, БД и т.д. (см. подраздел Извлечение выше).
Весь процесс анализа данных можно визуально представить и настроить с помощью инструмента Statistica Workspace.
Каждая элементарная операция представлена в виде узла (иконки) Workspace: импорт, преобразование, анализ, экспорт данных.
Соединяя узлы с помощью связей (стрелок) мы настраиваем поток данных от узла к узлу. Тем самым мы можем создать сложный процесс обработки данных, в том числе и ETL-процесс.
Полученный проект можно использовать как шаблон и быстро пересчитывать итоги для обновленных данных. Возможна автоматизация процесса с помощью корпоративной платформы Statistica.
Рассматривается пример анализа данных описывающих процессы в угольных топках, широко используемых для генерации энергии (тепло, электричество).
Цель данного примера показать, как можно объединить данные замеров по 5 циклонным печам.
Данные по характеристикам процесса сжигания угля (всего 12 характеристик) вместе с отметками времени хранятся в системе PI.
С помощью PI-коннектора Statistica были выгруженные данные отдельно для каждой из 5-ти печей.
С помощью меню Данные – Внешние данные – ETL запускаем инструмент ETL, группировка по отметке времени.
Добавим источники данных, нажмем кнопку Add data source.
Укажем модулю тип данных для каждого файла: метки времени и характеристики.
Перейдем на вкладку Дополнительно/Advanced и зададим спецификации для характеристик: диапазон корректных значений, тип агрегации и т.д.
Выберем детализацию для агрегирования данных: Сутки/Days.
После окончания настроек запускаем ETL-процесс. На выходе мы будем иметь таблицу, содержащую столбец с меткой времени и 60 столбцами характеристик (по 12 характеристик для каждой из 5-ти печей).
Данные были агрегированы посуточно.
Данная таблица пригодна для дальнейшего анализа или для экспорта в аналитическое хранилище.
Скачать
Актуальные курсы