Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Выборочный метод

Выборки из конечной совокупности

Простой выборочный метод

Расслоенные выборки

Пропорциональный выбор

Оптимальный выбор

Расслоение выборки в случае конечных  совокупностей

Многоступенчатый выбор

Рассмотрим следующую ситуацию.

Задана совокупность наблюдений, объединенных некоторым общим признаком. Предположим, что эта совокупность бесконечна в том смысле, что в принципе наблюдения можно продолжить в любой момент времени, как, например, в серии бросаний монеты. Из этой совокупности "случайным образом" извлекается последовательность наблюдений. Если число этих наблюдений достаточно велико, то частота появления событий, обладающих указанным признаком, незначительно отклоняется от некоторой постоянной, называемой эмпирической вероятностью.

На практике ответить на вопрос о том, может ли выбор из нашей совокупности рассматриваться как случайный, нелегко. Чаще всего этой несколько расплывчатой формулировкой о случайном выборе пользуются тогда, когда нет оснований предполагать наличие "привилегированных" наблюдений.

В этой связи часто говорят об "урновой" модели. Содержимое урны, например шары, неразличимые на ощупь, представляет совокупность, а извлечение шаров, которые мы предполагаем хорошо перемешанными, - случайный выбор.

Целью такого случайного выбора из совокупности является выяснение ее структуры, в частности определение эмпирической вероятности. Здесь отчасти используется то эвристическое соображение, что при бесконечно большом числе наблюдений можно точно определить значение эмпирической вероятности.

Практически же проведение произвольно большого числа опытов или наблюдений связано с трудностями различных характеров. Так, проведение большого числа опытов наталкивается на техническую невыполнимость или на экономические затруднения, что приводит к ограничению числа наблюдений. Приближение к идеальным условиям, которое имеет место в случае игр на разорение, в большинстве практически важных ситуаций не имеет места.

Установилась следующая терминология. Бесконечная (гипотетическая) совокупность возможных наблюдений называется генеральной совокупностью, и результаты наблюдений, из нее извлеченных, называются выборкой из этой совокупности. Число наблюдений в выборке называют ее объемом.

Понятие бесконечной совокупности представляет идеализацию действительного положения вещей, даже когда под этим понимается потенциальная возможность неограниченного повторения опытов. Практик рассматривает всякую совокупность, "достаточно большую" по сравнению с объемом имеющейся выборки, как бесконечную.

 

Выборки из конечной совокупности

Пусть задана конечная совокупность из N различных элементов x1, ..., xN. Из нее извлекается выборка объема n без возвращения, т. е. однажды выбранный элемент xi удаляется из совокупности. В этом случае мы будем говорить, что задана выборка из конечной совокупности. Эта выборка является реализацией случайной величины (ξ1, ..., ξn). Каждой выборке приписывается одинаковая вероятность.

Величина , являющаяся средним арифметическим выборочных случайных величин, имеет математическое ожидание, совпадающее со средним совокупности. При N → ∞ "конечная совокупность превращается в бесконечную". Дисперсии выборочного среднего соответствует тогда дисперсия выборочного среднего для бесконечной совокупности.

 

Простой выборочный метод

Гипергеометрическое распределение играет важную роль, например, в статистическом контроле качества. Предположим, что произведенные изделия (например, лампочки) разбиты на партии в N штук каждая (например, по ящикам вместимостью в N лампочек).

Каждая партия содержит некоторый процент бракованных изделий, который, возможно равен и нулю (например, лампочки с недостаточным сроком годности). Обозначим через M = pN число бракованных изделий в партии; здесь число p может меняться от партии к партии, но не должно превосходить некоторого заданного числа p0.

Для проверки этого условия можно пытаться исследовать все N изделий, что, однако невыгодно с экономической точки зрения, а часто просто невозможно, как в примере с лампочками, когда изделие после проверки разрушается. Можно, однако, ограничиться выборочной проверкой. Таким образом, возникает вопрос о проверке условия pp0 по данным некоторой выборки.

Предположим несколько более общим образом, что нам задана конечная совокупность, состоящая из N элементов, M = Np из которых обладают некоторым свойством. Из совокупности извлекается выборка объема n без возвращения.

При заданном p0, 0 ≤ p0 ≤ 1, подлежит проверке гипотеза pp0. При этом, конечно, следует рассматривать лишь те значения p и p0, для которых Np и Np0 - целые числа. Выберем по заданному уровню значимости α, 0 < α < 1, наименьшее число kα, для которого

 .     (1)

Отметим, что знак равенства в (1) достижим не всегда, так как последняя сумма принимает лишь конечное число значений, а выбор α возможен бесконечным числом способов. Гипотеза pp0 принимается, если число r элементов, обладающим указанным свойством, не превосходит kα, и отвергается в противоположном случае.

Так, в примере с контролем качества число бракованных изделий не должно превосходить kα. Этот критерий становится совсем понятным, если заметить, что вероятность того, что число исключительных элементов превзойдет kα, задается для всякого p такого, что 0 < p < 1 и Np - целое, формулой

.     (2)

Это выражение, рассматриваемое как функция от p не убывает. Таким образом, чем меньше p, тем меньше вероятность отвержения гипотезы.

Эти соображения являются основой простого выборочного метода, предложенного Доджем и Ромигом для нужд статистического контроля качества. Как и раньше, при фиксированном p0 найдем по заданным значениям α и n число kα согласно (1). p0 называют гарантированным условием качества.

Если число исключительных изделий в партии удовлетворяет неравенству rkα, то считаем, что pp0, причем r бракованных изделий заменяются исправными. Если же r > kα, то контролю подвергаются все N изделий из партии и все бракованные изделия заменяются на исправные. (Этот метод предполагает, что контроль не разрушает изделия.)

 

Расслоенные выборки

Пусть (ξ, η) обозначает двумерную случайную величину, причем распределение величины η дискретно:

.     (1)

Для вещественных x обозначим условную вероятность события {ξx | η = i} через Fi(x), 1 ≤ ik. Таким образом, Fi является ф. р. при фиксированном η. Для ф. р. величины ξ имеем

.     (2)

Если ξ имеет математическое ожидание

     (3)

и

,     (4)

то как следствие (2), (3) и (4) получаем

.     (5)

В случае существования вторых моментов в понятных обозначениях имеем

.

Отсюда получаем соотношения для дисперсий

.     (6)

Полученные соотношения, в частности (2), допускают следующую интерпретацию. Пусть имеется генеральная совокупность с ф. р. F, распадающаяся на k непересекающихся подсовокупностей. Вероятность того, что "наблюдение принадлежит i-й подсовокупности", равна pi, причем i-я подсовокупность имеет ф. р. Fi. В этом контексте соотношение (2) приобретает следующий смысл.

Вероятность наблюдать ξx задается функцией F(x). С другой стороны, это наблюдение изъято из l-й совокупности с вероятностью pl (l = 1, ..., k). Если, например, оно принадлежит i-й подсовокупности, то вероятность события ξx равна ф. р. Fi(x). Вероятность совмещения таких событий равна piFi. Отсюда выводится соотношение (2). Указанные подсовокупности называют слоями генеральной совокупности.

 

Пропорциональный выбор

Во многих практически важных случаях выбор чисел ni, удовлетворяющих соотношению , в значительной степени произволен. Представляется естественным пытаться выбрать ni таким образом, чтобы минимизировать соотношение .

Обсудим сначала так называемый пропорциональный выбор. Предположим для простоты, что npi, i = 1, ..., k, - целые числа, и положим

.     (1)

Термин "пропорциональный выбор" объясняется частотным соотношением, согласно которому числа pi приближенно равны отношению числа элементов в Ui к числу элементов в совокупности; так же соотносятся объем выборки, извлеченной из Ui, и объем всей выборки. Возьмем в определении ξr значения ni из (1) и обозначим полученную величину через . Тогда

,

где определены согласно , а ni, 1 ≤ ik, задаются соотношением (1). В силу :

,

и согласно :

.     (2)

 

Оптимальный выбор

Выбор чисел ni согласно предполагает известными значения pi, но не .

Покажем, что значения ni можно выбрать зависящими от pi и таким образом, что при заданном n справедливо и для соответствующей случайной величины , которую мы обозначим через , выполняется неравенство

.     (1)

Так как имеет вид , то в силу соотношения имеет место .

Нам потребуется следующая лемма:

Лемма 1

Пусть

.     (2)

Тогда

,     (3)

причем знак равенства достигается лишь при βi = αi, i = 1, ..., k.

Доказательство основывается на применении неравенства Коши. Имеем

.

Знак равенства здесь имеет место тогда и только тогда, когда при всех 1 ≤ ik и некотором λ выполнено , или . Из (2) видно, что λ = 1.

Положим теперь

     (4)

и

,     (5)

и заметим, что выполнено соотношение и

0 ≤ nin.     (6)

Если обозначить , то в силу (4) и (6) будут выполнены условия леммы 1, которая показывает, что

,

или

.

Согласно выражение является минимальным значением дисперсии .

Из леммы 1 следует, что в последнем неравенстве реализуется знак неравенства лишь для , где определены в (5). Если предположить, что - целые числа, то упомянутая величина получается из при выборе . Приведенные соображения показывают, что дисперсия равна . Доказательство неравенства (1) совсем просто.

Действительно, в силу неравенства Коши имеем

.

Знак равенства здесь достигается лишь при σ1 = σ2 = ... = σk. Тем самым (1) является следствием . В силу (1) выбор при значениях выборок носит название оптимального.

 

Расслоение выборки в случае конечных совокупностей

Рассмотренные выше понятия относительно расслоенных выборок, оптимального и пропорционального выбора переносятся на случай конечной генеральной совокупности практически без изменения. Укажем вкратце, как это нужно сделать.

Предположим, что основная совокупность G содержит N элементов, т.е. рассмотрим равномерное распределение на точках x1, ..., xN. Пусть подсовокупность Ui (i = 1, ..., k; k ≥ 2) содержит Ni ≥ 2 элементов и

.     (1)

В силу наших предположений

     (2)

является вероятностью "извлечения элемента из Ui". Среднее основной совокупности G равно . Если обозначить через точки, на которых сосредоточены распределения из Ui, то среднее ai совокупности Ui будет равно

,     (3)

т.е. по-прежнему имеет место соотношение и, как легко видеть, при естественных обозначениях соотношение для дисперсий.

Извлечем из G выборку объема n. Для среднего арифметического величин ξ1, ..., ξn имеем

     (4)

и

.     (5)

Произведем теперь расслоение выборки. Для этого из совокупности Ui извлечем выборку объема ni (0 < niNi, i = 1, ..., k).

По случайным величинам из этих совокупностей построим выборочное среднее согласно и затем величину

.

 

Многоступенчатый выбор

Рассмотрим двумерный случайный вектор (ξ, η) с дискретным распределением. Пусть частное распределение ξ равномерно:

.     (1)

Для условного распределения η при ξ = i имеем

.     (2)

Предположим, что равенство xij = xkl эквивалентно тому, что i = k и i = l. Из (1) и (2) получаем

.

Распределение величины η имеет, таким образом, следующий вид

.     (3)

Используя (1) рассмотрим случайную величину

,     (4)

тогда

,     (5)

где i1, ..., im - m различных чисел из множества {1, ..., M}.

 


В начало

Содержание портала