Вашему вниманию предлагаются материалы книги "Итоги науки и техники. Теория вероятностей. Математическая статистика. Теоретическая кибернетика." (Том 22, стр. 46-48).
В ряде прикладных задач, связанных с выборочным обследованием конечных совокупностей, мы имеем дело с ситуацией, когда число элементов (объем) N исследуемой совокупности U является априори либо неизвестной величиной, либо о нем известно лишь, что его значение находится в некоторых заданных пределах N1≤N≤N2.
В этих случаях возникает задача получения тех или иных статистических выводов относительно N на основе имеющейся статистической информации об U. Такая информация представляет собой обычно выборку элементов из U, извлеченную по некоторому заданному стохастическому закону, и решение задачи, естественно, существенно зависит от типа этого закона.
Чаще всего в приложениях имеют дело со схемами повторной и бесповторной выборки.
Простейший пример подобной задачи обсуждается в книге В. Феллера [1, стр. 56-58], где речь идет об оценке числа рыб в озере по результатам двух независимых уловов, когда каждый улов представляет собой бесповторную выборку.
В этом случае статистические выводы о неизвестном числе рыб N формулируются на основании изучения статистики μ2 – числа рыб, попавших в оба улова (величина μ2 имеет, как известно, гипергеометрическое распределение).
Если обозначить объемы выборок через m1 и m2, соответственно, то в данном случае для оценки максимального правдоподобия (о.м.п.) параметра N справедливо соотношение:
где η=m1+m2-μ2 - число разных рыб, пойманных за оба улова.
Таким образом, в данном случае (две независимые бесповторные выборки) изучение статистики μ2 фактически эквивалентно изучению статистики η.
Детальный анализ такой двухвыборочной схемы проводился в работе Чэпмана [2]. Обобщение этой схемы на случай произвольного числа s выборок рассматривалось в работах Г. И. Ивченко и Е. Е. Тимониной [3, 4, 5].
Пусть m1, ..., ms (s≥2) - объемы независимых бесповторных выборок из совокупности U,
,
n=m1+...+ms
μr обозначает число элементов U, каждый из которых вошел ровно в r некоторых выборок, r=1, ..., s.
Тогда вся совокупность данных представляется векторной статистикой μ=(μ1, ..., μs), и по этой информации требуется оценить неизвестный параметр N и, более общо, произвольную параметрическую функцию τ(N).
В работе [5] доказывается, что статистика η=μ1+... +μs – общее число наблюденных элементов U – является полной достаточной статистикой для параметра N и, основываясь на этом, описывается класс функций τ(N), для которых существуют несмещенные (а значит, и с минимальной дисперсией) оценки φ(N), и указывается, как по τ определить φ.
Оказывается, что если N≤n, то оптимальная оценка существует для любой функции τ(N) и она имеет вид:
(1)
где и Δ - оператор разности: Δf(x)= f(x+1)-f(x).
В частности, оптимальная оценка для параметра N имеет вид (при N≤n):
(2)
Если же N (≥m) может быть априори любым натуральным числом, то оптимальные оценки можно построить лишь для функций вида τ(N)= f(N)/φ(N), где f(N) - многочлен степени не выше n, удовлетворяющий условиям f(x)=0 при x= 0, 1, ..., m-1.
Если τ(N) - такая функция, то оптимальная оценка для нее дается формулой:
(3)
В частности, несмещенная оценка с минимальной дисперсией для функции τ(N)= 1/N всегда существует и имеет вид:
(4)
Если же ограничиться классом оценок, являющихся линейными функциями от μ1, ..., μs то в этом классе единственной несмещенной оценкой для τ(N)= 1/N является статистика:
(5)
Для параметра N построена также о.м.п. , которая для случая выборок одинакового объема m1=ms=...=m находится из условия [4]:
(6)
Показано также [3], что с помощью линейных оценок вида несмещенным образом можно оценивать лишь полиномы от 1/N степени не выше s-1.
Положив в предыдущих формулах m1=...=ms=1, можно получить соответствующие выводы для схемы простой повторной выборки, которая изучалась Харрисом [6] (его результат содержится в формуле (2)) и Дримлом и Ульрихом [7] (их результат содержится в (6)).
Основываясь на распределении статистики η, для схемы с s бесповторными выборками равных объемов m рассчитаны доверительные интервалы для N для значений n=sm=5 (5) 25, всех возможных комбинаций s и m и доверительных уровней 0,9; 0,95; 0,99.
На практике часто объем совокупности представляет собой априори весьма большую величину и потому представляет интерес асимптотическая постановка задачи, предполагающая неограниченное возрастание как параметра N, так и объема выборки.
Пусть m1=...=ms=m→∞, N→∞ и при этом p=m/N∈[p1, p2], где 0<p1<p2<1 - заданные границы, в которых находится неизвестное значение параметра p.
В качестве оценки для p согласно (5) можно рассматривать статистику:
которая является единственной несмещенной оценкой, линейной относительно μ1, ..., μs.
Скачать
Актуальные курсы