Уважаемые посетители Портала Знаний, если Вы найдете ошибку в тексте, выделите, пожалуйста, ее мышью и нажмите Сtrl+Enter. Мы обязательно исправим текст!


Краткое описание данных и визуализация

Построение рядов распределения (например, гистограмм) - один из возможных способов описания данных. Среднее арифметическое и дисперсия - одни из основных характеристик изменяющихся объектов.

Эти характеристики не являются универсальными; для статистического описания данных в качестве обобщающих характеристик совокупности полезными могут оказаться структурные показатели (особенно в случае распределения не по нормальному закону). А именно, медиана, мода, квантили (квартили, децили, перцентили), минимальное значение, максимальное значение, размах вариации и др.

Медиана определяется, как средняя, относительно которой ряд распределения делится на две равные части: в обе стороны от медианы располагается одинаковое число вариант. Для ранжированного ряда с нечетным числом членов центральная варианта и будет его медианой. При четном числе членов ряда медиана определяется по полусумме двух соседних вариант, расположенных в центре ранжированного ряда.

Мода - величина, наиболее часто встречающаяся в данной совокупности. Для нормального распределения значения среднего, медианы и моды совпадают.

Квантили - конкретная варианта совокупности, отсекающая в пределах вариационного ряда определенную часть его членов. На практике обычно используют перцентили. Причем перцентили Р25 и Р75 соответствуют первому и третьему квартилям, между которыми содержится 50% элементов выборки.

Размах - равен разности между максимальным и минимальным значением совокупности.

При первичной обработке данных часто возникает ситуация - отдельные варианты полученной в исследовании выборки по своим значениям сильно отличаются от остальных своих членов. Возможно это произошло из-за погрешности измерений или погрешностей в организации самого исследования, тогда эта сомнительная варианта должна быть исключена.

Вопрос о таком исключении может быть решен только на основе проверки статистических критериев. Одним из наиболее простых непараметрических критериев является проверка разностей между сомнительными и соседними членами ранжированного ряда для переменной Х. Для этого вычисляются статистики:

 или 

Первая для проверки наименьших Х1, вторая - для наибольших Хn сомнительных вариант ранжированного ряда. Гипотезу о принадлежности сомнительной варианты к изучаемой совокупности отвергают, если рассчитанное значение статистики превзойдет табличное для выбранного уровня значимости и объема выборки n.


Связанные определения:
Гистограмма
Диаграмма размаха
Диаграмма рассеяния

В начало

Содержание портала