Описательный (дескрипитивный) анализ гемограмм
Исследование эффективности лечения: введение новой переменной
Проверка гипотезы о нормальности
Какой метод лечения более эффективен?
Есть ли существенное различие состояний пациентов до и после лечения?
Исходная таблица данных содержится в формате Excel.
Таблица содержит информацию о 150 пациентах.
Четыре столбца содержат значения показателей их гемограмм – количество эритроцитов (в 1012/л), тромбоцитов (109/л), лейкоцитов (109/л), гемоглобин (г/л).
Шаг 1. При попытке открытия файла в системе STATISTICA (через меню Файл/Открыть) программа предложит нам на выбор несколько вариантов.
Выберем второй пункт.
Шаг 2. Далее необходимо выбрать номер листа в таблице Excel, который содержит нужную нам информацию. Сделать это очень просто.
Выбреем Лист 1 и нажмём OK.
Шаг 3. Далее вам необходимо:
указать диапазон значений во внешнем файле данных, который будет импортирован;
решить, надо ли импортировать имена наблюдений и переменных;
сохранить (или нет) формат ячеек из исходной таблицы.
Поставим галочки во все поля и нажмём OK.
Шаг 4. Теперь в программе STATISTICA открыта таблица.
Сохраним её под именем Гемограмма.sta.
Шаг 4. Введём дополнительную информацию о переменных.
Для этого выберем в меню пункт Данные/Все спецификации переменных.
В появившемся диалоге Редактор спецификаций переменных можно: указать длинные имена, изменить типы данных, коды пропущенных данных, добавить новые переменные или удалить старые и т.д.
Вначале данные нужно увидеть…
Система STATISTICA включает широкий спектр графических методов для визуального представления результатов исследований. Все графические средства системы STATISTICA обеспечивают возможность выбора встроенного аналитического интерактивного метода анализа и содержат большой набор программ настройки, позволяющих пользователю интерактивно управлять отображением информации на экране.
Построим диаграмму рассеяния для переменной Тромбоциты. Сделать это очень просто.
Из медицинской практики известно, что увеличение числа тромбоцитов в крови может привести к тромбозу.
Для выявления больных со слишком большим уровнем тромбоцитов в крови построим диаграмму рассеяния переменных Номер пациента и Тромбоциты.
Врач определяет критический уровень количества тромбоцитов в крови для проведения операции. Пусть это значение равно 250.
Проведём горизонтальную прямую, соответствующую данному значению.
Это можно сделать двумя способами.
Выберем из раскрывающегося списка пункт Параметры графика. В появившемся окне перейдём на закладку Ось: Дополнительные риски.
Выберем Ось – Левая Х, укажем Положение = 250, поставим галочку в окне сетка.
Можно также настроить тип и толщину линии. Для внесения изменений нажмём на кнопку Сетка.
В итоге на диаграмме рассеяния отобразится прямая Тромбоциты = 250.
Воспользуемся панелью Графические инструменты.
Выберем рисование стрелки и проведём соответствующую прямую на графике
Как и раньше, можно настраивать опции построенного объекта.
Теперь выделим пациентов, количество тромбоцитов в крови которых превышает данный уровень.
Для этого воспользуемся средством Кисть.
Средство Кисть является очень удобным для визуального анализа данных.
Нажмём на кнопку 2M Закрашивание на панели инструментов.
Выделим точки, соответствующие наблюдениям, лежащим выше прямой Тромбоциты = 250.
Если мы теперь откроем таблицу Редактор данных графика, то отмеченные наблюдения будут выделены красным цветом.
Построим диаграмму Вороного по переменным Гемоглобин и Тромбоциты. Сделать это очень просто.
На диаграмме Вороного значения двух переменных X и Y изображаются, как на диаграмме рассеяния, а затем пространство между отдельными точками данных делится границами, окружающими каждую точку данных, на области по следующему принципу: каждая точка области находится ближе к заключенной внутри точке данных, чем к любой другой соседней точке данных.
Приведем пример практического использования диаграммы Вороного.
Предположим, что на анализ поступил новый больной.
Для назначения лечения было бы полезно знать, какая гемограмма ему наиболее близка. Это можно сделать с помощью диаграммы Вороного.
Пусть в поступившей гемограмме указаны значения: Тромбоциты = 220 и Гемоглобин = 105. Проведём на графике соответствующие прямые; точка пересечения прямых будет соответствовать новому пациенту.
Выявим наблюдение, которое является «хозяином» области, в которое попадает данное наблюдение.
Для этого воспользуемся средством Кисть.
Вычислим описательные статистики для переменных, содержащих информацию о гемограммах. Сделать это очень просто.
Шаг 1. Запустим модуль Основные статистики и таблицы.
Выберем пункт Описательные статистики. Нажмём OK.
Шаг 2. Выбор переменных
Шаг 3. На вкладке Дополнительно укажем интересующие нас статистики.
Нажав OK, получим таблицу с описательными статистиками.
Достаточно часто возникает необходимость вычислить описательные статистики отдельно по каждой группе наблюдений.
Например, вычислим средние значения показателей гемограммы отдельно для каждой группы пациентов, а также для мужчин и для женщин.
Шаг 1. В диалоге Основные статистики и таблицы выберем пункт Группировка и однофакторный ДА.
В окне Внутригрупповые статистики и корреляции перейдём на вкладку Списки таблиц.
Шаг 2. Выберем группирующие переменные.
Шаг 3. Выберем зависимые переменные.
Нажмём на кнопку OK в диалоге Внутригрупповые статистики и таблицы.
В рабочей книге STATISTICA появится таблица, содержащая значения средних по группам.
Выбросами являются резко выделяющиеся наблюдения, например, пациенты с избыточным числом тромбоцитов.
Выявление выбросов осуществляется посредством построения двумерных диаграмм размаха.
Построим диаграмму размаха по переменной Тромбоциты.
Выберем в меню пункт Графики/2M Графики/Диаграммы размаха. В появившемся окне перейдём на вкладку Дополнительно.
Укажем переменные.
Пока что мы не будем указывать группирующую переменную.
Отметим, что на вкладке Дополнительно окна 2M Диаграмма размаха Вы можем настроить опции для выявления наблюдений – выбросов (например, Вы можете указать Коэффициент выбросов).
Нажмём OK в диалоге 2M Диаграмма размаха.
На диаграмме размаха отмечены четыре выброса – три «слишком больших» значения и одно «слишком маленькое».
Визуально анализируя диаграмму размаха, Вы можете получить представление об изменчивости переменной.
Определим, какие именно наблюдения являются выбросами. Один из способов нам уже известен – можно построить диаграмму рассеяния для переменных Номер наблюдения и Тромбоциты и при помощи средства Кисть выделить нужные наблюдения.
Опишем другой способ. Расположим наблюдения по убыванию переменной Тромбоциты.
Для этого выберем из меню пункт Данные/Сортировка.
В появившемся окне укажем параметры Ключа 1.
После нажатия на кнопку OK наблюдения в исходной таблице данных будут расположены в порядке убывания переменной Тромбоциты.
Теперь мы можем определить, какие наблюдения являются выбросами – это будут первые три и последнее наблюдения в таблице. Итак, «нестандартный» уровень тромбоцитов в крови выявлен у пациентов номер 71, 87, 79 и 97.
Теперь вновь вызовем диалог 2M Диаграмма размаха и зададим в окне Переменные в качестве группирующей переменной переменную Пол.
Отметим, что наблюдения – выбросы, отмеченные на этой диаграмме, отличаются от наблюдений-выбросов на диаграмме, построенной без разбиения на группы.
Например, значение Тромбоциты = 300, являющееся выбросом для наблюдений, рассмотренных вместе, оказывается «нормальным» при рассмотрении только группы женщин. Есть и примеры обратного: значение Тромбоциты = 73 оказывается выбросом для группы мужчин, но при рассмотрении всех наблюдений оно оказывается «нормальным».
Вычислим корреляции между переменными Var4 – Var7. Сделать это очень просто.
Запустим модуль Основные статистики и таблицы. В появившемся окне выберем пункт Парные и частные корреляции.
Отобразится окно Парные и частные корреляции.
Нажмём на кнопку Квадратная матрица и укажем переменные.
После нажатия на кнопку OK в диалоге Парные и Частные корреляции в рабочую книгу добавится таблица с коэффициентами корреляции между указанными переменными.
Итак, почти все переменные попарно зависимы; исключение составляет пара Эритроциты – Тромбоциты.
Шаг 1. Запустим модуль Непараметрическая статистика. Выберем пункт Корреляции Спирмена, тау Кендалла, гамма.
В появившемся диалоге Ранговые корреляции перейдём на вкладку Дополнительно.
Шаг 2. Зададим переменные.
Шаг 3. Нажмём на кнопку Спирмена R в диалоге Ранговая корреляция.
Теперь вернёмся в окно Ранговая корреляция и нажмём на кнопку Тау Кендалла.
Обратите внимание: коэффициент корреляции Спирмена между переменными Эритроциты и Тромбоциты оказался статистически значимым, в то время как коэффициенты корреляции Кендалла – нет. Это объясняется тем, что коэффициент корреляции Спирмена сильнее реагирует на несогласие ранжировок.
Визуально проанализируем зависимость между переменными. С этой целью построим Матричный график.
Нажмём на кнопку Матричный график в диалоге Ранговые корреляции.
Другой способ построения подобного графика: можно выбрать из меню пункт Графика/Матричные графики.
Введем новую переменную, характеризующую эффективность лечения.
В качестве меры эффективности лечения выберем величину
,
где - состояние пациента до лечения (девятая переменная в таблице),
- состояние пациента после лечения (десятая переменная в таблице).
Эта величина обладает следующими свойствами:
1) Чем ближе значение к 1, тем эффективнее лечение. В крайнем случае, когда пациент поступил в предсмертном состоянии (10), а после лечения оказался абсолютно здоров (100), значение величины
равно 0.9.
2) Чем ближе значение к -1, тем менее эффективно лечение. В крайнем случае, когда пациент поступил абсолютно здоровым (100), а после лечения оказался в предсмертном состоянии (10), значение величины
равно -0.9.
3) Значение = 0 означает, что состояние пациента не изменилось.
Добавим в таблицу новую переменную, назовём её Эффективностью, укажем формат отображения, зададим формулу для её вычисления.
В итоге в таблице появится новый столбец.
Целью исследования, которое мы сейчас проведём, является получение ответов на следующие вопросы:
1) Какой метод лечения более эффективен?
2) Есть ли существенное различие состояний пациентов до и после лечения?
Для ответа на поставленные вопросы можно использовать T-критерий переменной Эффективность. Этот критерий требует нормальность распределения переменной, поэтому перед использованием проверим гипотезу о нормальности.
Сначала проверим визуальными методами.
Построим гистограмму по переменной Эффективность. Для этого выберем из меню пункт Графика/Гистограммы.
На вкладке Дополнительно укажем: Распределение = Нормальное, количество категорий – 7 (приблизительное значение двоичного логарифма от 150, то есть от количества наблюдений), выберем переменную – Эффективность.
Гипотеза о нормальности кажется очень неправдоподобной (особенно «плохо» выглядят крайние столбцы).
Тот же вывод следует сделать по нормальному вероятностному графику.
Если наблюдаемые значения (откладываемые по оси X) были бы распределены нормально, то все значения на графике должны были попасть на прямую линию. Однако этого не наблюдается.
Теперь вычислим некоторые описательные статистики для переменной Эффективность.
На вкладке Дополнительно диалога Описательные статистики поставим галочки в полях Асимметрия, стандартная ошибка асимметрии, Эксцесс, Стандартная ошибка эксцесса.
Нажмём OK.
Судя по значению Асимметрии, распределение переменной Эффективность можно считать нормальным (0 «почти что» содержится в интервале Ассиметрия ±Стандартная ошибка Асимметрии).
Но судя по значению Эксцесса, гипотезу о нормальности следует отклонить. Как правило, если найдена хотя бы одна существенная «нестыковка», гипотезу смело отклоняют, в то время как соответствие даже всем известным критериям ещё не влечёт справедливость гипотезы.
В заключении обратимся к модулю Подгонка распределений.
Выберем пункт Нормальное в левом столбце, нажмём OK.
В появившемся окне укажем в качестве переменной Эффективность.
Нажмём OK.
Обратите внимание: значение p = 0,00031, то есть значительно меньше 5%. Это значит, что гипотезу о нормальности следует отклонить.
Итак, окончательный вывод: Распределение переменной Эффективность существенно отличается от нормального распределения.
И первый, и второй вопросы, поставленные в пункте Цели исследования, относятся к задаче сравнения выборок. Будем отвечать на вопросы в порядке их постановки.
С точки зрения прикладной статистики, задача сводится к сравнению значений переменной Эффективность по группам I и II (сравнение независимых выборок).
Как мы уже выяснили, распределение отличается от нормального, поэтому мы воспользуемся методами непараметрической статистики.
Шаг 1. Запустим модуль Непараметрическая статистика.
Выберем пункт Сравнение двух независимых групп.
Шаг 2. Укажем переменные.
Обратите внимание: коды для группирующей переменной (I и II) автоматически появятся в соответствующих окошках.
Шаг 3. Нажмём на кнопку U-критерий Манна – Уитни.
Обратите внимание на p-уровень: 0,63. Гипотезу о равенстве функций распределения отклонить нельзя. Поэтому выявить явное преимущество одного из методов не удалось.
Неявное преимущество можно обнаружить на основе сравнения диаграмм размаха по переменной Эффективность.
Если мы хотим сравнить, вполне разумно рассмотрение категоризованных диаграмм размаха.
Для этого выберем в меню пункт Графики/категоризованные графики/Диаграмма размаха.
Укажем переменные для этого графика
На вкладке Дополнительно уменьшим количество Y-категорий до 4.
Нажмём OK.
Это уже задача сравнения парных повторных наблюдений.
Как и при ответе на первый вопрос, мы воспользуемся непараметрическими методами.
Шаг 1. Запустим модуль Непараметрическая статистика.
Выберем пункт сравнение Двух зависимых переменных.
Шаг 2. Укажем переменные.
Шаг 3. Нажмём на кнопку Критерий знаков.
Вернёмся в диалог Сравнение двух переменных и нажмём на кнопку Критерий Вилкоксона.
Интерпретация результатов: гипотезу об однородности следует отвергнуть и принять альтернативу доминирования. Так как среднее значение состояния до лечения больше среднего значения состояния после лечения, то следует признать, что лечение существенно улучшает состояние пациентов.
Связанные определения:
Выборочное среднее, среднее значение выборки
Выброс
Дисперсия (рассеяние, разброс)
Дисперсия выборки (выборочная дисперсия)
Коэффициент вариации
Максимум
Математическое ожидание дискретной случайной величины
Математическое ожидание непрерывной случайной величины
Медиана
Меры дисперсии, меры разброса
Минимум
Мода
Описательные статистики
Описательный анализ
Параметры рассеяния
Параметры центральной тенденции
Среднее значение
Среднеквадратичное отклонение популяции
Стандартная ошибка среднего
Стандартное отклонение
Скачать