Построение предсказательных моделей зависимости свойств стали от химического состава является одной из актуальных задач в современной металлургии.
В Экономике 4.0 необходимо создавать стали и сплавы как с заданными свойствами, так и с особыми физическими свойствами, например, магнитные стали и сплавы, немагнитные стали, стали с высоким электросопротивлением, сплавы с особенностями теплового расширения, сплавы с высокими упругими свойствами; криогенные и термобиметаллы и др.
StatSoft демонстрирует уникальные технологии построения предиктивных моделей в металлургии с использованием машинного обучения и нейронных сетей Statistica
В данном кейсе рассматриваются предиктивные модели для прогнозирования механических свойств стали.
К основным механическим свойствам стали относятся: предел текучести, временное сопротивление разрыву, относительное удлинение, относительное сужение.
Предиктивные модели создаются в Statistica на основе реальных данных для разных марок стали, затем сохраняются в нужном формате и внедряются в производство.
Модели для предсказания энергопотребления в металлургической отрасли рассмотрены в отдельном кейсе.
По оценке международных рейтинговых агентств Statistica TIBCO Software является одним из лучших программных средств в области нейронных сетей и машинного обучения, см. http://statsoft.ru/coordination/news/news_detail.php?ELEMENT_ID=1937
StatSoft открывает методы нейросетевого прогнозирования и интеллектуального анализа данных для отраслей промышленности, включая металлургию, машиностроение, нефтедобывающей отрасли и других секторов экономики.
Наши флагманские курсы доступны по ссылкам:
Введение в анализ данных с помощью нейронных сетей: теория и практика на компьютере
Отзывы на курсы Академии Анализа Данных представлены по ссылке.
Постановка задачи
Необходимо построить модель зависимости механических свойств стального листа от содержания химических элементов.
Зависимыми переменными являются: временное сопротивление, предел текучести.
Независимые переменные процентный состав химических элементов: C, SI, MN, P, S, CR, NI, CU, MO, V, AL, SN, NB, N, CA.
Исходные данные представлены в таблице:
Рассматривается марка стали 26Г1, сталь конструкционная легированная.
Допуски для химического состава:
Предпроцессия, чистка данных
Вначале средствами Statistica проводится чистка исходных данных, проводится удаление выбросов, повторных наблюдений, заполнение пропусков.
Описательный и визуальный анализ
Описательный и визуальный анализ проводится в диалоговом режиме в последовательности открывающихся диалоговых окнах.
Значения коэффициента вариации показывают высокую вариабельность ванадия, серы, молибдена, хрома.
Деревья классификации и регрессии (CART модели)
Модуль Общих деревьев классификации и регрессии Statistica позволяет строить деревья классификации и регрессии для прогнозирования непрерывных зависимых переменных (регрессия) и категориальных предикторов (классификация).
Statistica поддерживает классический алгоритм C & RT, популяризированный Breiman et al. (Breiman, Friedman, Olshen, & Stone, 1984; см. Также Ripley, 1996), и включает в себя различные методы обрезания и перекрестной проверки, а также мощные методы перекрестной проверки по V-кратному критерию.
Кроме того, с помощью этого модуля вы можете задавать ANCOVA-подобные экспериментальные планы (см. MANOVA и GLM) с непрерывными и категориальными факторными эффектами и взаимодействиями, чтобы основывать вычисления на матрицах планов для предикторов.
Проблемы регрессионного типа, как правило, представляют собой задачи, в которых пытаются предсказать значения непрерывной переменной из одной или нескольких непрерывных и / или категориальных переменных-предикторов.
Если вы использовали простую множественную регрессию или какую-либо общую линейную модель (GLM) для прогнозирования вы бы определили линейное уравнение для этих переменных, которое можно использовать для расчета прогнозируемых значений.
Statistica содержит много различных аналитических процедур для подгонки линейных моделей (GLM, GRM, регрессии), различных типов нелинейных моделей (например, Обобщенные линейные / нелинейные модели (GLZ), Обобщенные аддитивные модели (GAM) и др.)
Использование деревьев классификации и регрессии на практике позволяет добиться более точных результатов, чем классические линейные модели.
В задачах классификации в листьях дерева находятся классы, по которым распределяются входные переменные, в задачах регрессии в листьях находятся средние значения, которым будут поставлены в соответствие входные переменные.
STATISTICA Data Miner содержит различные методы построения деревьев классификации и регрессии, позволяющие решать самые сложные задачи:
Использование этих методов доступно широкому кругу пользователей.
Шаг 1. Открываем модуль деревья классификации и регрессии в Statistica.
Выбираем зависимые переменные и предикторы.
Зависимыми переменными являются: временное сопротивление, предел текучести.
Независимые переменные процентный состав химических элементов: C, SI, MN, P, S, CR, NI, CU, MO, V, AL, SN, NB, N, CA.
Шаг 2. Выбираем правило остановки при построении дерева:
Если зависимая переменная является непрерывной, доступны два правила остановки построения дерева: по дисперсии и прямая остановка в стиле FACT.
Один из способов проверки размера дерева - это обрезание, то есть удаление частей деревьев с целью построения дерева правильного размера.
Если зависимая переменная является непрерывной (регрессия), используемой мерой является дисперсия наблюдений в узле.
Шаг 3. Задаем параметры кросс-проверки:
Кросс-проверка - один из подходов к оценке точности построенного дерева, заключается в применении дерева, вычисленного по одному набору наблюдений (обучающий образец), к другому полностью независимому набору наблюдений (тестовый образец).
Если расщепления, полученные на обучающей выборке, основаны на «случайном шуме», тогда прогноз на тестируемой выборке будет плохим.
Отсюда можно сделать вывод, что выбранное дерево не является адекватным или не имеет «правильного размера», такое дерево отвергается.
V-кратная кросс-проверка обобщает стандартную процедуру кросс-проверки.
Продолжая данную линию рассуждений, мы можем повторить анализ многократно с различными случайно выбранными выборками из данных для каждого размера дерева, начиная с корня дерева и применяя их к предсказанию наблюдений от случайно выбранных образцов тестирования.
Затем используйте (интерпретируйте или примите в качестве конечного результата) дерево, которое показывает наилучшую среднюю точность для перекрестно проверенных предсказанных значений.
В большинстве случаев это дерево не будет иметь наибольшее количество конечных узлов, то есть самое сложное дерево.
Этот метод для сокращения размера дерева и для выбора меньшего дерева из последовательности деревьев может быть очень мощным и особенно полезен для небольших наборов данных.
Шаг 3. Нажимаем кнопку ОК и запускаем анализ.
Шаг 4. Анализируем результаты анализа в специально настроенных диалоговых окнах.
Диаграмма рассеяния наблюдаемых и предсказанных значений для временного сопротивления:
Гистограмма остатков:
Шаг 5. В интерактивном режиме с помощью заранее настроенных диалоговых окон находим адекватное решение.
Коэффициент детерминации построенной модели равен 0.67: R2 = 0.67.
Далее в последовательно открывающихся диалоговых окнах строятся нейросетевые модели Statistica.
Нейронные сети позволяют построить на представленных данных модели с коэффициентом детерминации R2 = 0.75.
Для каждого марки стали на реальных исторических данных строятся модели, которые сохраняются в нужном формате и внедряются в производство.
StatSoft открывает новые возможности для цифровизации и повышении эффективности производства.
Полностью кейс разбирается на курсах StatSoft.
Вопросы по построению предиктивных моделей с помощью нейронных сетей и технологий машинного обучения можно задавать письменно по адресу vladimir@statsoft.ru или по телефонам StatSoft +7 (495) 787-77-33, +7 (906) 734-40-57
Список литературы:
1. Боровиков В.П. Нейронные сети Statistica, SNN, Москва, горячая линия телеком, 2008
2. Боровиков В.П. Популярное введение в современный анализ данных и машинное обучение на Statistica, Москва, горячая линия телеком, 2019
Скачать
Актуальные курсы