Построение рядов распределения (например, гистограмм) - один из возможных способов описания данных. Среднее арифметическое и дисперсия - одни из основных характеристик изменяющихся объектов.
Эти характеристики не являются универсальными; для статистического описания данных в качестве обобщающих характеристик совокупности полезными могут оказаться структурные показатели (особенно в случае распределения не по нормальному закону). А именно, медиана, мода, квантили (квартили, децили, перцентили), минимальное значение, максимальное значение, размах вариации и др.
Медиана определяется, как средняя, относительно которой ряд распределения делится на две равные части: в обе стороны от медианы располагается одинаковое число вариант. Для ранжированного ряда с нечетным числом членов центральная варианта и будет его медианой. При четном числе членов ряда медиана определяется по полусумме двух соседних вариант, расположенных в центре ранжированного ряда.
Мода - величина, наиболее часто встречающаяся в данной совокупности. Для нормального распределения значения среднего, медианы и моды совпадают.
Квантили - конкретная варианта совокупности, отсекающая в пределах вариационного ряда определенную часть его членов. На практике обычно используют перцентили. Причем перцентили Р25 и Р75 соответствуют первому и третьему квартилям, между которыми содержится 50% элементов выборки.
Размах - равен разности между максимальным и минимальным значением совокупности.
При первичной обработке данных часто возникает ситуация - отдельные варианты полученной в исследовании выборки по своим значениям сильно отличаются от остальных своих членов. Возможно это произошло из-за погрешности измерений или погрешностей в организации самого исследования, тогда эта сомнительная варианта должна быть исключена.
Вопрос о таком исключении может быть решен только на основе проверки статистических критериев. Одним из наиболее простых непараметрических критериев является проверка разностей между сомнительными и соседними членами ранжированного ряда для переменной Х. Для этого вычисляются статистики:
или
Первая для проверки наименьших Х1, вторая - для наибольших Хn сомнительных вариант ранжированного ряда. Гипотезу о принадлежности сомнительной варианты к изучаемой совокупности отвергают, если рассчитанное значение статистики превзойдет табличное для выбранного уровня значимости и объема выборки n.
Связанные определения:
Гистограмма
Диаграмма размаха
Диаграмма рассеяния
Скачать