Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Случайная цитата


Все люди от природы стремятся к знанию. (Аристотель. Метафизика)

Доверительные интервалы

Общий обзор

Доверительный интервал для среднего

Доверительный интервал для пропорции

Интерпретация доверительных интервалов

 

Общий обзор

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval, ДИ – Доверительный интервал) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

Доверительный интервал для среднего

Использование нормального распределения

Выборочное среднее имеет нормальное распределение, если объем выборки большой, поэтому можно применить знания о нормальном распределении при рассмотрении выборочного среднего.

В частности, 95% распределения выборочных средних находится в пределах 1,96 стандартных отклонений (SD) среднего популяции.

Когда у нас есть только одна выборка, мы называем это стандартной ошибкой среднего (SEM)  и вычисляем 95% доверительного интервала для среднего следующим образом:

Если повторить этот эксперимент несколько раз, то интервал будет содержать истинное среднее популяции в 95% случаев.

Обычно это доверительный интервал как, например, интервал значений, в пределах которого с доверительной вероятностью 95% находится истинное  среднее популяции (генеральное среднее).

Хотя это не вполне строго (среднее в популяции есть фиксированное значение и поэтому не может иметь вероятность, отнесённую к нему) таким образом интерпретировать доверительный интервал, но концептуально это удобнее для понимания.

Использование t-распределения

Можно использовать нормальное распределение, если знать  значение дисперсии в популяции. Кроме того, когда объем выборки небольшой, выборочное среднее отвечает нормальному распределению, если данные, лежащие в основе популяции, распределены нормально.

Если данные, лежащие в основе популяции, распределены ненормально и/или неизвестна генеральная дисперсия (дисперсия в популяции), выборочное  среднее подчиняется t-распределению Стьюдента.

Вычисляем 95% доверительный интервал для генерального среднего в популяции следующим образом:

где   - процентная точка (процентиль) t-распределения Стьюдента с (n-1) степенями свободы, которая даёт двухстороннюю вероятность 0,05.

Вообще, она обеспечивает более широкий интервал, чем при использовании нормального распределения, поскольку учитывает дополнительную неопределенность, которую вводят, оценивая стандартное отклонение популяции и/или из-за небольшого объёма выборки.

Когда объём выборки большой (порядка 100 и более), разница между двумя распределениями (t-Стьюдента и нормальным) незначительна. Тем не менее всегда используют t-распределение при вычислении доверительных интервалов, даже если объем выборки большой.

Обычно указывают 95% ДИ. Можно вычислить другие доверительные интервалы, например 99% ДИ для среднего.

Вместо произведения стандартной ошибки и табличного значения t-распределения, которое соответствует двусторонней вероятности 0,05, умножают её (стандартную ошибку) на значение, которое соответствует двусторонней вероятности 0,01. Это более широкий доверительный интервал, чем в случае 95%, поскольку он отражает увеличенное доверие к тому, что интервал действительно включает среднее популяции.

Доверительный интервал для пропорции

Выборочное распределение пропорций имеет биномиальное распределение. Однако если объём выборки n разумно большой, тогда выборочное распределение пропорции приблизительно нормально со средним .

Оцениваем выборочным отношением p=r/n (где r– количество индивидуумов в выборке с интересующими нас характерными особенностями), и стандартная ошибка оценивается:

95% доверительный интервал для пропорции оценивается:

Если объём выборки небольшой (обычно когда np или n(1-p) меньше 5), тогда необходимо использовать биномиальное распределение для того, чтобы вычислить точные доверительные интервалы.

Заметьте, что если p выражается в процентах, то (1-p) заменяют на (100-p).

Интерпретация доверительных интервалов

При интерпретации доверительного интервала нас интересуют следующие вопросы:

Насколько широк доверительный интервал?

Широкий доверительный интервал указывает на то, что оценка неточна; узкий указывает на точную оценку.

Ширина доверительного интервала зависит от размера стандартной ошибки, которая, в свою очередь, зависит от объёма выборки и при рассмотрении числовой переменной от изменчивости данных дают более широкие доверительные интервалы, чем исследования многочисленного набора данных немногих переменных.

Включает ли ДИ какие-либо значения, представляющие особенный интерес?

Можно проверить, ложится ли вероятное значение для параметра популяции в пределы доверительного интервала. Если да, то результаты согласуются с этим вероятным значением. Если нет, тогда маловероятно (для 95% доверительного интервала шанс почти 5%), что параметр имеет это значение.


Связанные определения:
Доверительный интервал
Доверительный предел
Коэффициент доверия
Оценка
Оценочная функция
Свободный от распределения доверительный интервал

В начало

Содержание портала