Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Описательные статистики

Среднее арифметическое

Медиана

Мода

Среднее геометрическое

Взвешенное среднее

Размах (интервал изменения)

Размах, полученный из процентилей

Что такое процентили

Применение процентилей

Дисперсия

Cреднеквадратическое отклонение, стандартное отклонение выборки

Вариация в пределах субъектов и между субъектами


Пусть Х1, Х2 ... Xn - выборка независимых случайных величин.

Упорядочим эти величины по возрастанию, иными словами, построим вариационный ряд:

Х(1) < Х(2) < ... < X (n) ,   (*)

где Х(1) = min ( Х1, Х2 ... Xn),

Х(n) = max ( Х1, Х2 ... Xn).

Элементы вариационного ряда (*) называются порядковыми статистиками.

Величины d(i) = X(i+1) - X(i) называются спейсингами или расстояниями между порядковыми статистиками.

Размахом выборки называется величина

R = X(n) - X(1)

Иными словами, размах это расстояние между максимальным и минимальным членом вариационного ряда.

Выборочное среднее равно: = (Х1 + Х2 + ... + Xn) / n


Среднее арифметическое

Вероятно, большинство из вас использовало такую важную описательную статистику, как среднее.

Среднее - очень информативная мера "центрального положения" наблюдаемой переменной, особенно если сообщается ее доверительный интервал. Исследователю нужны такие статистики, которые позволяют сделать вывод относительно популяции в целом. Одной из таких статистик является среднее.

Доверительный интервал для среднего представляет интервал значений вокруг оценки, где с данным уровнем доверия, находится "истинное" (неизвестное) среднее популяции.

Например, если среднее выборки равно 23, а нижняя и верхняя границы доверительного интервала с уровнем p=.95 равны 19 и 27 соответственно, то можно заключить, что с вероятностью 95% интервал с границами 19 и 27 накрывает среднее популяции.

Если вы установите больший уровень доверия, то интервал станет шире, поэтому возрастает вероятность, с которой он "накрывает" неизвестное среднее популяции, и наоборот.

Хорошо известно, например, что чем "неопределенней" прогноз погоды (т.е. шире доверительный интервал), тем вероятнее он будет верным. Заметим, что ширина доверительного интервала зависит от объема или размера выборки, а также от разброса (изменчивости) данных. Увеличение размера выборки делает оценку среднего более надежной. Увеличение разброса наблюдаемых значений уменьшает надежность оценки.

Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. Если это предположение не выполнено, то оценка может оказаться плохой, особенно для малых выборок.

При увеличении объема выборки, скажем, до 100 или более, качество оценки улучшается и без предположения нормальности выборки.

Довольно трудно «ощутить» числовые измерения, пока данные не будут содержательно обобщены. Диаграмма часто полезна в качестве отправной точки. Мы можем также сжать информацию, используя важные характеристики данных. В частности, если бы мы знали, из чего состоит представленная величина, или если бы мы знали, насколько широко рассеяны наблюдения, то мы бы смогли сформировать образ этих данных.

Среднее арифметическое, которое очень часто называют просто «среднее», получают путем сложения всех значений и деления этой суммы на число значений в наборе.

Это можно показать с помощью алгебраической формулы. Набор n наблюдений переменной X можно изобразить как X1, X2, X3, ..., Xn. Например, за X можно обозначить рост индивидуума (см), X1 обозначит рост 1-го индивидуума, а Xi — рост i-го индивидуума. Формула для определения среднего арифметического наблюдений (произносится «икс с чертой»):

= 1 + Х2 + ... + Xn) / n

Можно сократить это выражение:

где (греческая буква «сигма») означает «суммирование», а индексы внизу и вверху этой буквы означают, что суммирование производится от i = 1 до i = n. Это выражение часто сокращают еще больше:

или


Медиана

Если упорядочить данные по величине, начиная с самой маленькой величины и заканчивая самой большой, то медиана также будет характеристикой усреднения в упорядоченном наборе данных.

Медиана делит ряд упорядоченных значений пополам с равным числом этих значений как выше, так и ниже ее (левее и правее медианы на числовой оси).

Вычислить медиану легко, если число наблюдений n нечетное. Это будет наблюдение номер (n + 1)/2 в нашем упорядоченном наборе данных.

Например, если n = 11, то медиана — это (11 + 1)/2, т. е. 6-е наблюдение в упорядоченном наборе данных.

Если n четное, то, строго говоря, медианы нет. Однако обычно мы вычисляем ее как среднее арифметическое двух соседних средних наблюдений в упорядоченном наборе данных (т. е. наблюдений номер (n/2) и (n/2 + 1)).

Так, например, если n = 20, то медиана — это среднее арифметическое наблюдений номер 20/2 = 10 и (20/2 + 1) = 11 в упорядоченном наборе данных.


Мода

Мода — это значение, которое встречается наиболее часто в наборе данных; если данные непрерывные, то мы обычно группируем их и вычисляем модальную группу.

Некоторые наборы данных не имеют моды, потому что каждое значение встречается только 1 раз. Иногда бывает более одной моды; это происходит тогда, когда 2 значения или больше встречаются одинаковое число раз и встречаемость каждого из этих значений больше, чем любого другого значения.

Как обобщающую характеристику моду используют редко.


Среднее геометрическое

При несимметричном распределении данных сред­нее арифметическое не будет обобщающим показа­телем распределения.

Если данные скошены вправо, то можно создать более симметричное распределе­ние, если взять логарифм (по основанию 10 или по основанию е) каждого значения переменной в наборе данных. Среднее арифметическое значений этих логарифмов — характеристика распределения для преобразованных данных.

Чтобы получить ме­ру с теми же единицами измерения, что и первона­чальные наблюдения, нужно осуществить обратное преобразование — потенцирование (т. е. взять анти­логарифм) средней логарифмированных данных; мы называем такую величину среднее геометрическое.

Если распределение данных логарифма приблизитель­но симметричное, то среднее геометрическое подобно медиане и меньше, чем среднее необработанных дан­ных.


Взвешенное среднее

Взвешенное среднее используют тогда, когда не­которые значения интересующей нас переменной x более важны, чем другие. Мы присоединяем вес wi к каждому из значений xi в нашей выборке для то­го, чтобы учесть эту важность.

Если значения x1, x2 ... xn имеют соответствующий вес w1, w2 ... wn, то взвешенное арифметическое среднее выглядит следующим образом:

Например, предположим, что мы заинтересованы в определении средней продолжительности госпита­лизации в каком-либо районе и знаем средний реа­билитационный период больных в каждой больнице. Учитываем количество информации, в первом при­ближении принимая за вес каждого наблюдения число больных в больнице.

Взвешенное среднее и среднее арифметическое идентичны, если каждый вес равен единице.


Размах (интервал изменения)

Размах — это разность между максимальным и минимальным значениями переменной в наборе данных; этими двумя величинами обозначают их разность. Обратите внимание, что размах вводит в заблуждение, если одно из значений есть выброс (см. раздел 3).


Размах, полученный из процентилей

Что такое процентили

Предположим, что мы расположим наши данные упорядоченно от самой маленькой величины перемен­ной X и до самой большой величины. Величина X, до которой расположен 1% наблюдений (и выше которой расположены 99% наблюдений), называется первым процентилем.

Величина X, до которой находится 2% наблюдений, называется 2-м процентилем, и т. д.

Величины X, которые делят упорядоченный набор значений на 10 равных групп, т. е. 10-й, 20-й, 30-й,..., 90 и процентили, называются децилями. Величины X, которые делят упорядоченный набор значений на 4 равные группы, т.е. 25-й, 50-й и 75-й процентили, называются квартилями. 50-й процентиль — это ме­диана.

Применение процентилей

Мы можем добиться такой формы описания рас­сеяния, на которую не повлияет выброс (аномальное значение), исключая экстремальные величины и определяя размах остающихся наблюдений.

Межквартильный размах — это разница между 1-м и 3-м квартилями, т.е. между 25-м и 75-м процентилями. В него входят центральные 50% наблюдений в упорядоченном наборе, где 25% наблюдений находятся ниже центральной точки и 25% — выше.

Интердецильный размах содержит в себе центральные 80% наблюдений, т. е. те наблю­дения, которые располагаются между 10-м и 90-м процентилями.

Мы часто используем размах, который содержит 95% наблюдений, т.е. он исключает 2,5% наблюдений снизу и 2,5% сверху. Указание такого интервала актуально, например, для осуществления диагностики болезни. Такой интервал называется референтный интервал, референтный размах или нормальный размах.


Дисперсия

Один из способов измерения рассеяния данных за­ключается в том, чтобы определить степень отклоне­ния каждого наблюдения от средней арифметической. Очевидно, что чем больше отклонение, тем больше изменчивость, вариабельность наблюдений.

Однако мы не можем использовать среднее этих отклонений как меру рассеяния, потому что положительные от­клонения компенсируют отрицательные отклонения (их сумма равна нулю). Чтобы решить эту проблему, мы возводим в квадрат каждое отклонение и находим среднее возведенных в квадрат отклонений; эта величина называется вариацией, или дисперсией.

Возьмем n наблюдений x1, x2, х3, ..., xn, среднее которых равняется .

Вычисляем дисперсию:

дисперсия

В случае, если мы имеем дело не с генеральной совокупностью, а с выборкой, то вычисляется выборочная дисперсия:

выборочное стандартное отклонение

Теоретически можно показать, что полу­чится более точная дисперсия по выборке, если разделить не на n, а на (n-1).

Единицы измерения (размерность) вариации — это квадрат единиц измерения первоначальных на­блюдений.

Например, если измерения производятся в килограммах, то единица измерения вариации будет килограмм в квадрате.


Среднеквадратическое отклонение, стандартное отклонение выборки

Среднеквадратическое отклоне­ние — это положительный квадратный корень из дисперсии.

Стандартное отклонение выборки - корень из выборочной дисперсии:

Мы можем представить себе стандартное отклоне­ние как своего рода среднее отклонение наблюдений от среднего. Оно вычисляется в тех же единицах (размерностях), что и исходные данные.

Если разделить стандартное отклонение на сред­нее арифметическое и выразить результат в процен­тах, получится коэффициент вариации.

Он являет­ся мерой рассеяния, не зависит от единиц измерения (безразмерный), но имеет некоторые теоретические не­удобства и поэтому не очень одобряется статистиками.


Вариация в пределах субъектов и между субъектами

Если провести повторные измерения непрерывной переменной у исследуемого объекта, то можно увидеть ее изме­нения (внутрисубъектные изменения). Это можно объяснить тем, что объект не всегда может дать точные и те же самые ответы, и/или ошибкой, погрешностью измерения. Однако при измерениях у одного объекта вариация обычно меньше, чем вариация единичного измерения в группе (межсубъектные изменения).

Например, вместимость легкого 17-летнего мальчика составляет от 3,60 до 3,87 л, когда измерения повторяются не менее 10 раз; если провести однократное измерение у 10 мальчиков того же возраста, то объем будет между 2,98 и 4,33 л. Эти концепции важны в плане исследования.


Связанные определения:
Выборочное среднее, среднее значение выборки
Выброс
Дисперсия (рассеяние, разброс)
Дисперсия выборки (выборочная дисперсия)
Коэффициент вариации
Максимум
Математическое ожидание дискретной случайной величины
Математическое ожидание непрерывной случайной величины
Медиана
Меры дисперсии, меры разброса
Минимум
Мода
Описательные статистики
Описательный анализ
Параметры рассеяния
Параметры центральной тенденции
Среднее значение
Среднеквадратичное отклонение популяции
Стандартная ошибка среднего
Стандартное отклонение

В начало

Содержание портала