Оценка параметров популяции: точечные оценки
В статистике популяция представляет целую группу индивидуумов, которые нас интересуют. Вообще, изучать целую популяцию довольно дорого и трудоемко, а в некоторых случаях просто невозможно, так как популяция может быть гипотетической, поэтому собирают данные по выборке индивидуумов, как предполагают, представителей этой популяции, и используют их для того, чтобы сделать выводы (т.е. делать заключения) относительно этой популяции.
Когда берут выборку из популяции, имеют ввиду, что информация в выборке не может полностью отражать то, что истинно в этой популяции. Возможна ошибка, обусловленная выборкой, так как изучалась только часть популяции.
Далее мы разберем, как использовать теоретическое распределение вероятности для определения величины этой ошибки.
Репрезентативная выборка
Репрезентативная выборка (representative sample) - одно из ключевых понятий анализа данных. Репрезентативная выборка - это выборка из генеральной совокупности с распределением F(x), представляющая основные особенности генеральной совокупности.
Например, если в городе проживает 100 000 человек, половина из которых мужчины и половина женщины, то выборка 1000 человек из которых 10 мужчин и 990 женщин, конечно, не будет репрезентативной.
Построенный на ее основе опрос общественного мнения, конечно, будет содержать смещение оценок и приводит к фальсификации результатов.
Необходимым условием построения репрезентативной выборки является равная вероятность включения в нее каждого элемента генеральной совокупности.
Выборочная (эмпирическая) функция распределения дает при большом объеме выборки достаточно хорошее представление о функции распределения F(x) исходной генеральной совокупности.
Мы часто заинтересованы в оценке параметра в популяции, среднего или стандартного отклонения. Обычно обозначают среднее популяции как , а стандартное отклонение популяции как
.
В статистике принято обозначать популяционные параметры (генеральные) буквами греческого алфавита, а выборочные – соответствующими им буквами латинского алфавита, например, и m ,
и
и т. д.
Мы оцениваем значение параметра, используя данные, собранные в выборке.
Эта оценка – точечная оценка генерального параметра (т.е. она принимает только одно значение) в отличие от интервальной оценки, которая имеет интервал значений.
Точечную оценку описывает выборочная статистика.
Если повторить извлечение выборок того же самого объема из популяции, маловероятно, что оценки параметра популяции будут точно такими же в каждой выборке. Однако все оценки должны быть близки к истинному значению параметра (генеральному параметру) в популяции и подобны друг другу.
Определяя величину вариабельности этих оценок, мы поймем, насколько они точны, и таким образом сможем оценить ошибку, обусловленную выборкой.
Обычно берут только одну выборку из популяции. Однако можно использовать знания о теоретическом распределении выборочных оценок для того, чтобы сделать выводы относительно генерального параметра популяции.
Выборочное стандартное отклонение s оценивается по наблюдаемой реализации выборки:
Стандартное отклонение отражает вариабельность в значениях данных и должно быть указано, если нужно пояснить изменчивость в наборе данных.
Предположим, что мы заинтересованы в оценке среднего популяции; можно брать много повторных выборок объема n из популяции и оценить среднее в каждой выборке.
Если объем выборки разумно большой, оценки среднего имеют нормальное распределение при любом распределении исходных данных в популяции.
Данное утверждение следует из теоремы, известной как центральная предельная теорема:
→ N (0,1) при n → ∞
Если объем выборки небольшой, оценки среднего отвечают нормальному распределению при условии, что данные в популяции также отвечают нормальному распределению;
Среднее этих оценок – несмещенная оценка истинного среднего в популяции (генерального среднего), т.е. среднее этих оценок эквивалентно истинному среднему в популяции;
Вариабельность распределения выражается стандартным отклонением оценок, известным как стандартная ошибка среднего (часто обозначают как Standard Error Means, SEM).
Если бы мы знали стандартное отклонение популяции σ, тогда стандартная ошибка среднего описывалась бы так:
В случае если есть, как обычно, только одна выборка, нашей лучшей оценкой среднего популяции будет выборочное среднее, а так как редко бывает известно стандартное отклонение в популяции (генеральный стандарт), то стандартную ошибку среднего оценивают следующим образом:
где s – стандартное отклонение в выборке.
Стандартная ошибка среднего отражает точность нашей оценки.
Итак, стандартная ошибка отображает точность выборочного среднего и должна быть указана, если интересует среднее значение набора данных.
Связанные определения:
Выборка
Гетерогенная выборка
Гомогенная выборка
Контрольная группа
Независимые (несвязанные) выборки
Параллельная контрольная группа
Парные выборки
Парный тест
Репрезентативная выборка
Скачать
Актуальные курсы