Случайная цитата


Все люди от природы стремятся к знанию. (Аристотель. Метафизика)

Cкоринг-карты

Понятие профиля риска

Logit-регрессия

Конструирование скоринг-карты

Начальный анализ характеристик определяет набор тех из них, которые должны быть учтены в итоговой модели и преобразует их в группированный формат переменных. На стадии составления предварительной скоринг-карты различные методики прогнозирования могут использоваться для нахождения такого набора характеристик, который способствует обеспечению наибольшей точности прогноза. 

Применяются методы логистической регрессии, а также деревья решений и нейронные сети. Вообще говоря, итоговые скоринг-карты, создаваемые на этой стадии, должны состоять из 8-20 характеристик. Такое количество значений берется для обеспечения устойчивости карты даже при изменении одной или нескольких характеристик. Скоринг-карты с очень маленьким набором характеристик как правило, не выдерживают испытаний, так как они неустойчивы при малейших изменениях в выбранном профиле (наборе характеристик). 

Вне зависимости от используемой методики моделирования, результатом работы должна явиться готовая скоринг-карта, состоящая из оптимальной комбинации характеристик, принятых во внимание, например, могут учитываться:

  • корреляция между характеристиками;
  • статистическая сила скоринг-карты;
  • интерпретируемость выбранных характеристик в конкретной отрасли/отделе; 
  • используемые средства моделирования; 
  • понятность методологии, соответствие предъявляемым требованиям.

Понятие профиля риска

Скоринг-карты могут разрабатываться и использоваться для различных целей: максимизации качества статистических показателей, эффективности (с использованием небольшого числа переменных), и т.д. 

В бизнесе скоринг-карты разрабатываются, чтобы помочь специалисту в принятии решений. Они выступают в роли арбитров, хранят в себе правила для принятия решений. Опытный специалист никогда не будет принимать свое решение исходя только из 4-5 правил формы приложения или истории расчетов. Скорее, он проанализирует сразу несколько обобщающих показателей для формирования профиля риска клиента. Так почему же скоринг-карты разрабатываются всего с 4-5 переменными или характеристиками? 

Цель процесса разработки карт - построить наиболее полный профиль риска для каждого клиента. Такой широкий подход делает скоринг-карты не только более эффективными, но и менее восприимчивыми к изменениям в одной отдельной области. Такой профиль риска должен включать в себя характеристики, отражающие столько независимых типов информации, сколько возможно. Для примера, кредитная скоринг-карта пользователя должна включать в себя: демографическую информацию о клиенте (возраст, место проживания, регион и стаж работы); раздел кредитных характеристик, отражающих владение недвижимостью, профессию, платежеспособность, некоторую финансовую информацию, а также степень доверия клиенту в отношении погашения долгов (общий коэффициент невозвращения долга), а также другую значимую для рассмотрения информацию о существующих пользователях.

Профиль пользователя также помогает при последующем мониторинге скоринг-карт по релевантности. Большинство аналитиков, занимающихся изучением рисков, используют ежемесячные отчеты типа "стабильность системы" или "стабильность численности клиентов" для подтверждения эффективности применения карт при текущей численности клиентов. Эти отчеты показывают меры эффективности, исходя лишь из характеристик, используемых в скоринг-карте. Общий же профиль риска более реалистично отражает текущие изменения численности, чем при использовании ограниченного количества переменных из скоринг-карты. 

Создание карты клиента на основе профиля риска в теории практически ничем не отличается от других процедур прогнозного моделирования. Разница состоит лишь в представлении конечного набора характеристик. Существует большое количество разнообразных методов, которые могут быть использованы для включения значений профилей рисков клиента в скоринг-карту. Оставшаяся часть статьи будет посвящена методам, использующим logit-регрессию для построения скоринг-карт клиентов.

Logit-регрессия

Logit-регрессия применяется для разработки скоринг-карт в большинстве приложений финансовой сферы, где переменные являются категориальными. В случае непрерывных переменных прогноза используется линейная регрессия. Далее будет рассмотрено использование множественной logit-регрессии для прогноза бинарной переменной (имеющей значения плохо/хорошо). 

logit-регрессия, как и большинство других методов прогнозирования, использует набор характеристик прогнозирования для определения вероятности (или возможности) достижения результата (цели). logit-преобразование уравнения возможности наступления события выглядит следующим образом:

Где: 

 Р - итоговая вероятность наступления события; 

 Х - зависимые переменные; 

- начальный(нулевой) уровень линии регрессии; 

 - параметры

Логит-преобразование - это логарифм отношения вероятности наступления события к вероятности его ненаступления: log(p(наступления события)/р(ненаступления события)), и используется оно для линеаризации итоговой вероятности, ограничивая вероятность от 0 до 1. Для оценки параметров  и используется метод максимального правдоподобия. Эти параметры оценивают меру изменения результата логит-преобразования при изменении входной переменной на одну единицу (в согласовании с другими входными переменными). На самом деле, эти коэффициенты показывают наклон линии регрессии между переменной-целью (target), и соответствующей входной переменной 

Параметры зависят от единицы измерения входной переменной, например, выражаются в процентном отношении к объему всех анализируемых данных, и их необходимо стандартизировать для облегчения анализа. Стандартизация может быть выполнена различными методами, включая и метод стандартизированных оценок. Другой способ стандартизации состоит в общей отмене единиц измерения входных данных, и выполнении регрессии не на входные данные, а на WOE для каждой группировки, созданной на прошлом шаге. 

Регрессия подразумевает наличие целевой переменной и серий входных данных. Эти данные могут иметь различные формы представления. Наиболее общий способ - это использовать необработанную входную информацию для числовых данных и создавать замену для переменных с категориальными данными. Далее в анализе используется метод стандартизированных оценок для нейтрализации эффекта, оказываемого различными единицами измерения входных данных. 

В случае скоринг-карт по сгруппированным переменным, входные данные могут быть представлены в виде средних значений для числовых переменных, например средний возраст по каждой группе, или некоторое взвешенное среднее, или замененные переменные для категориальных групп. Но использование замененных переменных для категориальных переменных имеет существенный недостаток - получается, что разница между группой категориальных переменных состоит в их названии. Более предпочтительно использовать для сгруппированных переменных WOE каждой группы в качестве входных данных. Данный подход не только решает проблемы различий единиц измерения входных переменных, но и принимает в расчет точный тренд и шкалу отношений одной группы к другой. В дополнение, если группировка была произведена верно, можно быть уверенным, что значения, распределенные по группам при шкалировании скоринг-карты являются логически обоснованными и отражают разницу в родстве между группами. 

Регрессия может быть применена для нахождения наиболее вероятной модели, использующей все доступные опции. Обычно это принято называть методикой "регрессии по доступным параметрам". Данный метод оказывается довольно эффективным, особенно если имеется большое количество независимых входных переменных. Гораздо реже используются следующие три типа поэтапной logit-регрессии:

Предварительный выбор: 

Этот метод строит модель по одной характеристике(переменной), затем постепенно добавляет остальные характеристики в эту модель по возрастанию до тех пор, пока не останется переменных с р-value меньше уровня значимости (например, 0,5). Этот метод эффективен, но может не работать, если имеется очень большое количество переменных или присутствует высокая степень их корреляции.

Метод исключения: 

Противоположный предварительному выбору метод, работает сразу со всеми переменными модели, и последовательно исключает переменные с наименьшим уровнем значимости. Процесс идет до тех пор, пока все оставшиеся переменные не будут иметь р-value ниже уровня значимости, например 0,1. Этот метод учитывает корреляцию больше, нежели метод предварительного выбора, или поэтапного выбора. Однако это не идеальный метод для исключения корреляции. Обратное исключение также может быть использовано для объединения значимых взаимодействий в модель.

Поэтапный выбор: 

Комбинация двух предыдущих методов. Использует и добавление и удаление переменных динамически в карту качества на каждом этапе, вплоть до достижения наилучшей комбинации признаков. Пользователь может задать минимальные p-value, при которых переменная добавляется в создаваемую модель, или остается в модели. Дополнительную информацию Вы можете получить на статистическом портале и сайте компании СтатСофт.

Конструирование скоринг-карты

Пока возможно построить карту качества, применив ко всем переменным регрессионную модель и сгенерировав статистически оптимальный результат, этот метод не может принести лучшие результаты. Разработчик скоринг-карты обычно опирается на некоторые статистические показатели, такие как p-value, ХИ-квадрат, R-квадрат и некоторые другие для определения качества построенной модели. Далее приведены некоторые задачи, решение которых необходимо при разработке скоринг-карты. 

Первая задача состоит в определении наилучшего набора входных переменных, и построении полного профиля рисков. Методика построения профиля рисков была описана выше. В идеале, этот профиль должен быть построен с использованием как можно большего числа независимых переменных, например демографических, финансовых, кредитных вопросов, платежеспособности, и т.д. Процесс разработки должен учитывать проблемы корреляции и коллинеарности, и другие факторы, затрагивающие надежность модели. 

Разработанная скоринг-карта должна соответствовать по своей структуре с последовательностью принятия решений в организации. Если модель является единственным решающим фактором, необходимость построения всестороннего профиля рисков возрастает. Если модель предполагается использовать для поддержки принятия решений, то переменные, включаемые в карту, должны перекликаться с остальными показателями, и не противоречить им. Например, включение таких характеристик как банкротство, TDSR, информация о совершенных преступлениях, должно быть сведено к минимуму, так как присутствует в полицейских стандартах.

Возраст
Место жительства
Опыт работы
Запрос за 12 месяцев
Запрос за 3 месяца
Зарплата за последние 3 месяца + как процент от общей з/п
Текущая зарплата как процент от общей з/п
Профессия
Количество счетов в банке
Задолженности перед банками
Суммарный коэффициент задолженности
Таблица 1

Пример, приведенный в таблице 1, показывает переменные-факторы скоринг-карты, взятые из профиля рисков. Заметьте, что среди показателей представлены различные типы информации, как из внутренних, так и из внешних источников. Включение запросов за последние 12 и за 3 месяца сделано для того, чтобы можно было определить масштаб как коротко- так и долгосрочного кредитования. Банкротство и "статистика нарушений" не были включены в карту показателей, так как они используются в полицейских правилах и автоматически отсеиваютсоответствующих кандидатов.

Обычно подобная скоринг-карта не является результатом автоматического регрессионного алгоритма. Как же получается подобная скоринг-карта? 

Рассмотрим на примере. 

Разработчик скоринг-карт имеет на вооружении несколько методов, с помощью которых он может построить итоговую форму модели. Предполагается отбор параметров, при котором изначально рассматриваются лишь необходимые, или те, которые "может быть пригодятся". 

Один из способов добиться результата - это предположить значимые для модели переменные, шаг за шагом, причем переменные предполагаются совершенно специфичным для каждого шага путем. Этот процесс похож на регрессию с поэтапным выбором (stepwise). Пример приведен в таблице 2 ниже:

Шаг 1 возраст, последняя дата смены места жительства, опыт работы, дата открытия первого счета в банке
Шаг 2 район, индекс, область
Шаг 3 время работы в отделе, текущий покупатель
Шаг 4 запросы за 3;6;9;3/12 месяцев
Шаг 5 з/п, з/п за 3 месяца в % от общей, текущая з/п
Шаг 6 профессия, гос. должности
Шаг 7 банкротство
Таблица 2

Используя данный метод, регрессионный алгоритм сначала выбирает параметры, используя logit-регрессию либо по предварительному отбору, либо по методу исключения, либо поэтапный выбор. Характеристики, удовлетворяющие поставленным критериям отбора (напр. Когда p-value параметра оценивается на каком-либо уровне доверия, параметры добавляются к карте в первую очередь, или наоборот, удаляются из нее в случае регрессии по методу исключения.) В приведенном примере характеристики "возраст", "дата смены места жительства" и "опыт работы" будут вычислены при первой итерации. Характеристика "возраст" появится в модели как оказывающая наибольшее влияние на прогноз.

При второй итерации того же уровня, алгоритм рассмотрит две оставшиеся характеристики, принимая во внимание уже отобранную переменную "возраст". Если окажется, что одна либо обе рассматриваемые переменные оказывают значимое влияние на результат прогноза, то они тоже будут добавлены в модель. Регрессионный анализ остановится, когда не будет ни одной переменной, которую можно было бы добавить, либо исключить из набора данных для анализа. 

Все характеристики, включенные в модель на первом шаге, будут участвовать в ней и на 2м шаге. Регрессионный алгоритм на этом шаге проверит такие характеристики как "район", "индекс", и "область", но проверка начнется с характеристик, отобранных на первом шаге и уже включенных в модель. Вновь, такие показатели как p-value и уровень значимости будут использованы для определения значимых характеристик (которые войдут в модель). 

Подобный анализ будет проведен для каждого последующего уровня. Итогом анализа будет являться скоринг-карта. Характеристики, включенные в модель на более ранних шагах, будут также включены в модель и при последующих итерациях. 

Статистические показатели, такие как ХИ-квадрат или стандартизированные оценки могут быть использованы для определения силы прогноза модели на каждом шаге итерации. 

Опытный пользователь может проконтролировать процесс анализа для увеличения шансов вынесения правильного диагноза. Слабые и "Привилегированные" характеристики могут быть помещены на более ранние шаги итерации в целях увеличения шансов их добавления в модель, и для максимизации влияния бесспорных (проверенных) переменных. В дальнейшем, добавление других переменных увеличит точность прогноза. 

Более значимые характеристики помещаются в конец, и могут не войти в скоринг-карту, если их влияние может быть уже смоделировано по одному или нескольким другим критериям. Использование нескольких слабых критериев для моделирования поведения одного более значимого применяется для стабилизации, причем без потери силы прогноза, например, 5 характеристик, добавляющих 200 баллов каждая в скоринг-карте предпочтительнее, чем две характеристики, добавляющие по 500 баллов каждая. Модель будет эффективна при более широкой базе (наборе характеристик). Это соответствует идее создания профилей рисков. 

Схожие критерии("возраст", "дата смены места жительства" и "опыт работы" ) объединяются в один шаг итерации для того, чтобы корреляция между этими характеристиками была рассмотрена в дальнейшем. Наиболее подходящие среди коррелированных характеристик войдут в скоринг-карту. Схожие коэффициенты должны быть также помещены в один и тот же шаг итерации в качестве информации о числителе и знаменателе. Вдобавок, рассмотрение различной независимой информации на каждом шаге увеличивает шансы добавления хотя бы одной переменной из каждой группы в итоговую скоринг-карту. 

Регрессионный анализ будет повторяться для различных комбинаций характеристик на разных этапах и с разными уровнями доверия в цикличном процессе для построения наилучшего набора правил модели. Характеристики могут быть перемещены на более высокие или более низкие шаги в целях достижения разнообразных комбинаций для скоринг-карт. Эти карты будут оценены позже, с использованием бизнес критериев и статистических показателей прогнозной силы модели. 

На практике этот подход реализуется моделью с опцией выбора последовательности в logit-регрессии с поэтапным выбором. Вот два наиболее часто используемых подхода:

Простая регрессия 

Выполняется однократный запуск алгоритма регрессионного анализа, причем порядок размещения характеристик следующий: - Все "слабые" характеристики размещаются вверху(вначале), все более значимые характеристики - в конце. Внутри каждого типа информации характеристики могут быть отсортированы, начиная самой менее значимой, и заканчивая наиболее значимой характеристикой. Весомость каждой характеристики может быть рассчитана по ее значению.

Множественная регрессия 

При использовании данного подхода алгоритм регрессионного анализа повторяется многократно, рассматривая различную информацию на каждом шаге анализа.

  • Все "слабые" характеристики рассматриваются в первую очередь, на начальных шагах регрессионного анализа.
  • При каждом регрессионном анализе характеристики располагаются в порядке возрастания их значимости, то есть от самой "слабой" к самой "сильной".
  • Характеристики, включенные в скоринг-карту на более ранних шагах анализа, включаются во все последующие шаги.

Также, как и при процессе группировки, такой подход к разработке скоринг-карт восприимчив к понижению эластичности. Хорошее понимание всех шагов анализа, а также статистических компонентов, таких как набор анализируемых характеристик, снизит шансы получения неудовлетворительного качества прогнозирования. Данный подход должен быть протестирован с использованием нескольких различных комбинаций характеристик, чтобы понять динамику изменения данных перед составлением итоговой скоринг-карты. 

Этот процесс включает в себя статистическое моделирование (например, регрессионный анализ) и бизнес-анализ. Осуществляется разработка устойчивой, эффективной скоринг-карты, содержащей характеристики из различных источников, и отображающей различные независимые типы информации(демографическая, запросы, информация о прошлой деятельности, о з/п и т.д.). Заметим, что регрессионный анализ выполняется с использованием устойчивого набора характеристик, выбранных из первично отобранных характеристик, и все слабые критерии уже были устранены. Все тесты на значимость следуют из выбора итоговой композиции характеристик, входящих в скоринг-карту, но это не единственный критерий для рассмотрения. Получившаяся карта имеет свою статистическую силу и воздействие. Чаще всего, это как раз то, что используют риск-менеджеры и другие специалисты по принятию решений для выработки компенсирующих риски стратегий. 

Когда набор характеристик для включения в скоринг-карту получен, эти характеристики могут быть применены к анализу в сгруппированном виде, для получения итоговых параметров регрессии. Подобные процессы происходят с каждой скоринг-картой при построении, для каждого сегмента в отдельности. Типично несколько скоринг-карт используют различные комбинации характеристик для каждого сегмента, и учитывают поставленные цели и задачи для определения итогового решения. Скоринг-карта с более низкой "силой" может получить больший приоритет, если она нацелена на стратегию, цели и задачи организации.( например, большая прибыль), чем другая, с большей "силой", и поэтому необходимо сравнить несколько карт соответствующим образом, чем полагаться единственно на статистические показатели. Кстати выбор критериев скоринг-карт и их утверждение будет рассмотрено в последующих главах. 

В итоге на данном этапе создаются несколько различных скоринг-карт, обобщающих некоторое число характеристик и их параметры регрессии.


В начало