Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Случайная цитата


Сегодня это действительно слишком просто: вы можете подойти к компьютеру и практически без знания того, что вы делаете, создавать разумное и бессмыслицу с поистине изумительной быстротой. (Дж. Бокс)

Методы ETL в анализе промышленных данных

Введение

Реализация ETL в Statistica

Извлечение

Преобразование

Загрузка

Управление проектом

Пример использования блока ETL в Statistica

Описание задачи

Модуль ETL, группировка по отметке времени

Введение

ETL – аббревиатура от Extract, Transform, Load. Дословный перевод: Извлечение, Преобразование, Загрузка.

Под ETL часто подразумевают как отдельную систему класса BI (или её компоненту), так и этап в анализе данных.

Необходимость в ETL обусловлена разнообразием источников, в которых хранятся данные. Причем для проведения комплексного анализа зачастую требуется анализировать данные из разных источников совместно.

Источники могут сильно отличатся как платформами, так и внутренней архитектурой: структура таблиц, разные справочники, различная детализация данных.

Например, на производстве потоковые данные могут хранится в системе PI, а результаты прецизионных лабораторных замеров в системе LIMS. Причем разрешение данных в PI системе может быть доли секунды, а в LIMS – часы и даже сутки.

Аналогично, может возникнуть задача компоновки данных из ERP, CRM, систем веб-аналитики и т.д.

Этапы ETL процесса можно представить следующим образом:

  • Загрузка данных из источников
  • Поиск, очистка/исправление ошибок в данных
  • Приведение к единим метрикам/размерностям/справочникам
  • Агрегация до необходимой детализации
  • Выгрузка в целевую систему/хранилище

Реализация ETL

Пакет Statistica может использоваться как инструмент для ETL процедур.

Извлечение

Statistica позволяет импортировать данные из различных источников:

  • Файлы
    • Excel
    • CSV
    • LOG
  • Базы Данных
    • Реляционные
      • SQL Server
      • ORACLE
      • MySQL
  • Big Data
    • Хранилища на основе Hadoop
    • Хранилище Statistica BigData Analytics
  • Отраслевые системы
    • SAP
    • PI

Подробнее

Преобразование

Statistica имеет обширный набор инструментов для подготовки и чистки данных:

  • Поиск выбросов
  • Поиск дубликатов
  • Отсеивание разреженных данных
  • Заполнение пропусков, в том числе методом ближайших соседей
  • Создание подвыборок, в том числе случайных
  • Проверка данных
  • Операции с датами
  • Стекинг-анстекинг

Кроме того, в Statistica реализован специализированный инструмент для «склеивания» данных из разных источников, блок ETL.

Данные средства позволяют производить объединение таблиц, делать агрегацию с требуемой детализацией данных. При этом программа использует переменные с меткой времени и/или с уникальным номером объекта анализа – ID.

Загрузка

Полученные таблицы могут быть сохранены как во внутреннем формате Таблиц Statistica для дальнейшего анализа, так и экспортированы во внешние ресурсы: файлы Excel, БД и т.д. (см. подраздел Извлечение выше).

Управление проектом

Весь процесс анализа данных можно визуально представить и настроить с помощью инструмента Statistica Workspace.

Каждая элементарная операция представлена в виде узла (иконки) Workspace: импорт, преобразование, анализ, экспорт данных.

Соединяя узлы с помощью связей (стрелок) мы настраиваем поток данных от узла к узлу. Тем самым мы можем создать сложный процесс обработки данных, в том числе и ETL-процесс.

Полученный проект можно использовать как шаблон и быстро пересчитывать итоги для обновленных данных. Возможна автоматизация процесса с помощью корпоративной платформы Statistica.

Пример использования блока ETL в Statistica

Описание задачи

Рассматривается пример анализа данных описывающих процессы в угольных топках, широко используемых для генерации энергии (тепло, электричество).

Цель данного примера показать, как можно объединить данные замеров по 5 циклонным печам.

Данные по характеристикам процесса сжигания угля (всего 12 характеристик) вместе с отметками времени хранятся в системе PI.

С помощью PI-коннектора Statistica были выгруженные данные отдельно для каждой из 5-ти печей.

Модуль ETL, группировка по отметке времени

С помощью меню Данные – Внешние данные – ETL запускаем инструмент ETL, группировка по отметке времени.

Добавим источники данных, нажмем кнопку Add data source.

Укажем модулю тип данных для каждого файла: метки времени и характеристики.

Перейдем на вкладку Дополнительно/Advanced и зададим спецификации для характеристик: диапазон корректных значений, тип агрегации и т.д.

Выберем детализацию для агрегирования данных: Сутки/Days.

После окончания настроек запускаем ETL-процесс. На выходе мы будем иметь таблицу, содержащую столбец с меткой времени и 60 столбцами характеристик (по 12 характеристик для каждой из 5-ти печей).

Данные были агрегированы посуточно.

Данная таблица пригодна для дальнейшего анализа или для экспорта в аналитическое хранилище.


В начало

Содержание портала