Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Случайная цитата


Если действовать не будешь, ни к чему ума палата. (Шота Руставели)

Бутстреп, малые выборки, применение в анализе данных

Основная идея

Теоретический бэкграунд

Приложения бутстрепа

Аппроксимация стандартной ошибки выборочной оценки

Метод процентилей

Центрированный метод бутстреп-процентилей

Бутстреп-t критерий

Пример реальных данных

Основная идея

Метод бутстрепа предложен Б. Эфроном как развитие метода складного ножа в 1979 году.

Опишем основную идею бутстрепа.

Цель анализа данных – получить максимально точные выборочные оценки и распространить результаты на всю популяцию.

Технический термин, которым обозначаются численные данные, построенные по выборке, это выборочная статистика.

Основные описательные статистики это выборочные среднее, медиана, стандартное отклонение и т.д.

Итоговая статистика, например, выборочное среднее, медиана, корреляция будут меняться от выборки к выборке.

Исследователю требуется знать размер этих отклонений в зависимости от популяции. На основании этого рассчитывается предел погрешности.

Исходная картина всех возможных значений выборочной статистики в форме распределения вероятностей называется выборочным распределением.

Ключевым является размер выборки. Что делать, если размер выборки небольшой? Один из разумных подходов состоит в том, чтобы случайным образом извлекать данные из имеющейся выборки.

Идея бутстрепа в том, чтобы использовать результаты вычислений по выборкам как “фиктивную популяцию” с целью определить выборочное распределение статистики. Фактически, при этом анализируется большое число “фантомных” выборок, называемых бутстреп-выборками.

Обычно случайным образом генерируется несколько тысяч выборок, из этого набора можно найти бутстреп-распределение интересующей нас статистики.

Итак, пусть имеем выборку выберем на первом шаге случайным образом  один из элементов выборки, возвратим этот элемент в выборку, вновь случайным образом выберем элемент и тд.

Повторим описанную процедуру случайного выбора n раз.

В бутстрепе проводится случайный выбор с возвращением, выбранные элементы исходной выборки возвращается в выборку и далее могут быть снова выбраны.

Формально на каждом шаге мы выбираем элемент исходной выборки с вероятностью 1/n.

Всего имеем n элементов исходной выборки, вероятность получить выборку с номерами (N1 … Nn), где Ni меняется от 0 до n описывается полиномиальным распределением.

Таких выборок генерируется несколько тысяч, что вполне достижимо для современных компьютеров.

Для каждой выборки строится оценка интересующей величины, далее оценки усредняются.

Так как выборок много, можно построить эмпирическую функцию распределения оценок, далее рассчитать квантили, вычислить доверительный интервал.

Ясно, что бутстреп метод является модификацией метода Монте-Карло.

Если выборки генерируются без возвращения элементов, то получается известный метод складного ножа.

Вопрос: зачем это делать и когда метод разумно использовать в реальном анализе данных?

В бутстрепе мы не получаем новой информации, но разумно используем имеющиеся данные, исходя из поставленной задачи.

Например, бутстреп можно использовать для малых выборок, для оценок медианы, корреляций, построения доверительных интервалов и в других ситуациях.

В исходной работе Эфрона рассматривались оценки парной корреляции для размера выборки n = 15.

Генерируется B = 1000 бутстреп выборок (bootstrap replication).

На основе полученных коэффициентов ro1 … roВ строится общая оценка коэффициента корреляции и оценка стандартного отклонения.

Стандартная ошибка выборочного коэффициента корреляции, вычисленная с помощью нормального приближения, имеет вид:

где коэффициент корреляции равен 0.776, размер исходной выборки n = 15.

Бутстреп оценка стандартной ошибки равна 0.127, см. EfronGall Gong, 1982.

Теоретический бэкграунд

Пусть - целевой параметр исследования, например, средний доход в выбранном обществе.

По произвольной выборке размера  получаем набор данных  Пусть соответствующая выборочная статистика -  

Для большинства выборочных статистик при большом значении  (>30) выборочное распределение представляется из себя нормальную кривую с центром  и стандартным отклонением , где положительный параметр  зависит от популяции и вида статистики  

Этот классический результат известен как центральная предельная теорема.

Зачастую при оценке требуемого стандартного отклонения по данным возникают серьезные технические трудности.

Например, если  медиана или выборочная корреляция.

Метод бутстрепа позволяет обойти эти трудности.

Идея простая: обозначим через  произвольную величину, представляющую собой такую же статистику, вычисленную по бутстреп-выборке, которая получена из исходной выборки 

Что можно сказать про выборочное распределение , если “исходная” выборка  фиксирована?

В пределе  выборочное распределение  также является колоколообразным с параметрами  и 

Таким образом, бутстреп-распределение  хорошо аппроксимирует выборочное распределение 

Заметим, что когда мы переходим от одной выборки к другой, в выражении  меняется только , так как  вычислена по  

По сути это является бутстреп версией центральной предельной теоремы.

Также было установлено, если предельное выборочное распределение статистической функции  не включает в себя неизвестные по популяции, бутстреп-распределение позволяет получить более хорошее приближение к выборочному распределению, чем центральная предельная теорема.

В частности, когда статистическая функция имеет вид  где через  обозначена истинная, или выборочная оценка стандартной ошибки  при этом предельное выборочное распределение обычно стандартное нормальное.

Этот эффект получил название коррекции второго порядка с помощью бутстреппинга.

Пусть т.е. среднее по популяции, и  т.е. среднее по выборке; - стандартное отклонение в популяции,  - выборочное стандартное отклонение, вычисленное по исходным данным, а  - вычисленное по бутстреп-выборке.

Тогда выборочное распределение величины  где , будет аппроксимироваться бутстреп-распределением , где - среднее по бутстреп-выборке, .

Аналогично, выборочное распределение  будет аппроксимироваться бутстреп-распределением , где .

Первые результаты по коррекции второго порядка были опубликованы Бабу и Сингхом в 1981-83 годах.

Приложения бутстрепа

Аппроксимация стандартной ошибки выборочной оценки

Предположим, что для популяции известен параметр 

Пусть  - оценка  сделанная на основе случайной выборки размера  т.е.  это функция от Так как выборка меняется на множестве всех возможных выборок, то для того, чтобы оценить стандартную ошибку  используется следующий подход:

Вычислим  используя ту же формулу, что использовалась для  но на этот раз на основе  различных бутстреп-выборок размера  каждая. Грубо говоря, можно принять  если только  не сильно велико. В этом случае можно сократить до nlnn. Тогда можно определить исходя, собственно, из сути бутстреп-метода: популяция (выборка) заменяется эмпирической популяцией(выборкой).

Байесовская коррекция с помощью бутстреп метода

Среднее выборочного распределения  часто зависит от  обычно как  для больших То есть,  Байесовская аппроксимация:

 где - это бутстреп-копии . Тогда скорректированное значение будет -

Стоит отметить, что предыдущий метод ресэмплинга(замен выборки), называемый методом складного ножа, является более популярным.

Доверительные интервалы

Доверительные интервалы (ДИ) для заданного параметра это основанные на выборке диапазоны .

Этот диапазон обладает тем свойством, что значение  с очень высокой (заранее установленной) вероятностью принадлежит ему. Это называется уровнем значимости. Конечно, эта вероятность должна относиться к любой выборке из возможных, т.к. каждая выборка привносит свой вклад в определение доверительного интервала. Два наиболее часто используемых уровня значимости это 95% и 99%. Здесь мы ограничимся значением 95%.

Традиционно ДИ зависят от выборочного распределения величины точнее в пределе . Есть два основных вида доверительных интервалов, которые могут быть построены с помощью бутстрепа.

Метод процентилей

Этот метод уже упоминался во введении, он очень популярен благодаря своей простоте и естественности. Предположим, что у нас есть 1000 бутстреп копий обозначим их через  Тогда в доверительный интервал попадут значения из диапазона Возвращаясь к теоретическому обоснованию метода, стоит отметить, что в нем требуется симметрия выборочного распределения  вокруг Причина этого заключается в том, что в методе аппроксимируется выборочное распределение с помощью бутстреп-распределения , хотя по логике получается, что оно должно аппроксимироваться значением  то есть противоположным по знаку.

Центрированный метод бутстреп-процентилей

Предположим, что выборочное распределение  аппроксимируется с помощью бутстреп распределения то есть как изначально и предполагалось в бутстреппинге. Обозначим 100-й процентиль  (в бутстреп-повторениях) через  Тогда предположение, что значение  лежит в диапазоне от  до  будет верным с вероятностью 95%. Это же выражение легко преобразуется в аналогичное для диапазона от  до  Этот интервал и называется центрированным доверительным интервалом по бутстреп-процентилям (при уровне значимости 95%).

Бутстреп-t критерий

Как уже было отмечено, в бутстрепе используется функция вида  где  есть выборочная оценка стандартной ошибки 

Это дает дополнительную точность.

В качестве основного примера возьмем стандартную t-статистику (отсюда название метода): то есть частный случай, когда (популяционное среднее), (выборочное среднее) и - выборочное стандартное отклонение. Бутстреп аналогом такой функции является  где  вычисляется также, как и только по бутстреп-выборке.

Обозначим 100-й бутстреп-процентиль  через и будем полагать, что значение  лежит в интервале  

Используя равенство  можно переписать предыдущее утверждение, т.е. лежит в интервале  

Этот промежуток называется бутстреп t-доверительным интервалом для при уровне 95%.

В литературе он используется для достижения большей точности, чем предыдущий подход.

Пример реальных данных

Возьмем для первого примера данные из работы Холландера и Вольфе 1999 года, стр. 63, которые представляют собой эффект влияния света на скорость вылупления цыплят.

Стандартный бокс-график предполагает отсутствие нормальности по данным популяции. Мы провели бутстреп анализ медианы и среднего.

 

 

Отдельно стоит отметить отсутствие симметрии на бутстреп t-гистограмме, которая отличается от стандартной предельной кривой. 95%-е доверительные интервалы для медианы и среднего (вычисленные с использованием бутстреп метода процентилей), грубо говоря, покрывают диапазон  

Этот диапазон представляет общую разницу (нарастание) в результатах скорости вылупления цыплят в зависимости от подсветки.

В качестве второго примера рассмотрим данные из работы Девора (Devore) 2003 г., стр 553, в которой рассматривалась корреляция между показателем биохимической потребности в кислороде (БПК, BOD) и результатами гидростатического взвешивания (HW)  профессиональных спортсменов - футболистов.

Двумерные данные состоят их  пар и пары можно произвольно выбирать во время бутстреп ресэмплинга. Например, сначала взять  затем  и т.д.

На рисунке график ящики-усы показывает отсутствие нормальности для основных популяций. Гистограммы корреляций, вычисленные на основе бутстреп двумерных данных, являются асимметричными (сдвинутыми влево).

По этой причине, центрированный метод бутстреп процентилей является в данном случае более подходящим.

В результате анализа выяснилось, что измерения скоррелированы  для как минимум 78% популяции.

Данные для примера 1:

-8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Данные для примера 2:

BOD

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

HW

 8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

В литературе часто предлагаются различные схемы для бутстреппинга, которые могли бы давать достоверные результаты в различных статистических ситуациях.

То, что обсуждалось выше - лишь самые базовые элементы, и других вариантов схем на самом деле очень много. Например, какой метод лучше использовать в случае двухступенчатой выборки или стратифицированной выборки?

Естественную схему в этом случае нетрудно придумать. Бутстрэппинг в случае данных с моделями регрессии вообще привлекает много внимания. Есть два основных метода: в первом ковариации и переменные отклика ресэмплируются вместе (парный бутстреппинг), во втором - бутстреппинг производится по остаткам (остаточный бутстреппинг).

Парный метод остается корректным (в смысле результатов при ) даже если дисперсии ошибок в моделях не равны. Второй метод в этом случае некорректен. Этот недостаток компенсируется тем, что такая схема дает дополнительную точность в оценке стандартной ошибки.

Гораздо сложнее применять бутстреппинг для данных временных рядов.

Анализ временных рядов, однако, является одной из ключевых областей в эконометрике. Здесь можно выделить две основные трудности: во-первых, данные по временным рядам обладают свойством быть последовательно зависимыми. То есть,  зависит от  и т.д.

Во-вторых, статистическая популяция со временем меняется, то есть появляется нестационарность.

Для этого разработаны методы, которые переносят зависимость в исходных данных на бутстреп-выборки, в частности, блоковая схема.

Вместо бутстреп выборки сразу строится блок данных, сохраняющий в себе зависимости из исходной выборки.

В области приложения бутстреппинга к разделам эконометрики в настоящий момент проводится довольно много исследований, в целом метод активно развивается.


В начало

Содержание портала