Домой Домой

Что там у нас с температурой?  

Всем известно, что нормальная температура равна 36,60 Цельсия. Всем известно также, что при пониженной температуре человека нужно усиленно кормить, а при повышенной – усиленно лечить. Но откуда взялся этот порог? Одинаков ли он для мужчин и женщин? Зависит ли он от возраста? Конечно, подобные вопросы находятся вне компетенции статистики, так что мы не сможем здесь ответить на них. Зато мы можем познакомиться с методами, которые позволят при случае провести соответствующее исследование.

Я использую данные, которые восходят к Allen L. Shoemaker, Psychology Department, Calvin College, 3201 Burton St. S.E., Grand Rapids, MI 49546, [email protected]. Автор пишет, что данные выведены из набора данных, представленных в статье Mackowiak, P. A., Wasserman, S. S., and Levine, M. M. (1992), «A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich», Journal of the American Medical Association, 268, 1578-1580.

Исходная выборка содержит следующую информацию о 130 пациентах: пол, температура тела (градусы Фаренгейта), частота сердечных сокращений (число ударов в минуту). Этот набор данных, а также многие другие, предназначенные для учебных целей, можно найти на сайте http://www.stat.ncsu.edu/info/jse/; собственно данные находятся там в файле normtemp.dat, их описание – в файле normtemp.txt.

Я собираюсь продемонстрировать применение разных видов T-критерия. Конечно, я покажу также, как убедиться в том, что выполнены необходимые предположения о характере данных.

Чтобы продемонстрировать полный набор процедур, связанных с T-критерием, я добавил переменную, аналогичную той, которая содержит температуру: я хотел получить утренние и вечерние измерения для одних и тех же пациентов. Данные доступны в виде файла temperature.dat (описание - в файле temperature.dsc). Вот список переменных в нем: пол (1=муж,2=жен), чсс (частота сердечных сокращений), t.утро и t.вечер (температура, конечно, приводится в привычных нам градусах Цельсия).

Практически весь анализ проведен с помощью статистического пакета SPSS. В приложении рассказывается, как именно получить описанные результаты. Кроме того, вы можете скачать данные в формате SPSS (файл temperature.sav).

Одновыборочный T-критерий

Одновыборочный T-критерий используется для проверки гипотезы о том, что среднее имеющейся выборки равняется некоему «теоретическому» значению.

Чему равна средняя температура?

В этом разделе T-критерий используется для проверки гипотезы о том, что средняя температура наших пациентов равна каноническому числу 36.60 C. Вспомним, однако, что согласно всем классическим руководствам T-критерий применим лишь при условии, что выборка подчиняется нормальному распределению или близка к нему. Таким образом, начать нужно с исследования данных.

Исследование данных

Не устаю повторять: каждый шаг при анализе данных следует сопровождать графическим представлением всего, что можно. При первоначальном знакомстве с данными следует рассмотреть таблицу частот, диаграмму ствол-листья или гистограмму, ящичковую диаграмму. Они позволяют выявить необычные, сильно отклоняющиеся, выскакивающие, значения. Они покажут форму распределения: скошено оно или симметрично, можно ли считать его унимодальным, похоже ли оно на нормальное, пусть лишь приблизительно. Если на графиках, представляющих распределение, не видны ярко выраженные особенности, а рассеяние не оказывается аномально большим, можно ожидать, что распределение среднего близко к нормальному даже для выборок небольшого объема.

На гистограммах распределений, построенных (рис. 1) для переменных t.утро и t.вечер, не видны никакие существенные особенности, их форма близка к канонической (на графики нанесены соответствующие графики нормальных плотностей). То, что горбы в центре слабо выражены и в них наблюдаются провалы, легко объяснить недостаточным объемом выборки. Вообще распределения представляются чуть скошенными, а одинокие столбики по краям могут потребовать особого внимания. Тем не менее, поскольку объем выборки очень даже не мал, распределения средних можно уверенно считать нормальными.

Дополню этот вывод применением соответствующих высоко научных критериев: на рис. 2 представлены результаты работы трех наиболее распространенных. Все три единодушны: наблюденные уровни значимости довольно велики и, таким образом, у нас нет оснований отвергнуть гипотезу о нормальности выборки. Но и здесь не хочу обойтись без графика: на рис. 3 представлены так называемые Q-Q диаграммы. Здесь подозрительными (впрочем, как всегда в подобных случаях) выглядят края распределений: нормально распределенные данные должны группироваться вокруг прямой. После удаления тренда графики стали выглядеть, пожалуй, еще хуже. В реальной жизни пришлось бы потратить время на то, чтобы разобраться с причинами.



Рисунок 1. Гистограммы распределений переменных t.утро и t.вечер


Шапиро-Уилк

Лильефорс

Колмогоров-Смирнов

 

Значение статистики

Наблюденная значимость

Значение статистики

Наблюденная значимость

Значение статистики

Наблюденная значимость

t.утро

0.9865

0.8214

0.06473

0.1869

0.065

0.200

t.вечер

0.9895

0.9354

0.04158

0.8324

0.042

0.200


Рисунок 2. Три критерия проверки на нормальность


Q-Q-t.утро

Q-Q-t.вечер

Detrended Q-Q-t.утро

Detrended Q-Q-t.вечер


Рисунок 3. Распределение выборки на нормальной вероятностной бумаге  


Проверяем гипотезу

Итак, наши данные, по-видимому, распределены нормально и потому мы объявляем о намерении применить t-критерий. Справедливости ради стоит заметить, что согласно современным воззрениям t-критерий применим и к распределениям, не являющимся нормальными. Требуется все же, чтобы они были симметричными.

Из таблицы на рис. 4 видно, что наблюденная значимость для обеих переменных меньше 0.0005, откуда заключаем, что нулевую гипотезу (о том, что средняя температура равна 36.60 C) следует отвергнуть.
 

Рисунок 4. Результаты применения одновыборочного t-критерия

T-критерий для парных выборок

Парный t-критерий (t-критерий для парных выборок) применяется для проверки гипотезы о совпадении средних в ситуации, когда с каждым наблюдением одной выборки сопоставлено наблюдение из другой; соответственно объемы выборок должны совпадать.

Пример применения: гипотеза состоит в том, что до и после приема алкоголя скорость реакции водителя автотранспорта не меняется. Парные выборки строим следующим образом: измеряем скорость реакции водителей, даем им выпить, измеряем скорость реакции тех же водителей еще раз. Парными являются, конечно, наблюдения за одним и тем же водителем.

В рассматриваемом нами примере пары образуют измерения утренней и вечерней температуры одного и того же пациента.

Конечно, проверяемая гипотеза состоит в том, что средние в двух выборках равны друг другу. Легко видеть, что эта задача сводится к рассмотренной нами одновыборочной: построим выборку, состоящую из разностей парных измерений и проверим, что ее среднее равно нулю. Поскольку эта задача встречается достаточно часто, имеется, как правило, специальная процедура, называемая t-критерием для парных выборок, или короче – парным t-критерием.

Равна ли утренняя температура вечерней?

Прежде чем отвечать на этот вопрос посмотрим на распределения глазами: ящичковые диаграммы на рис. 5 позволяют ожидать, что вечерняя температура выше утренней, причем, по-видимому, это различие значимо.



Рисунок 5. Ящичковые диаграммы подытоживают распределения  

Таблица на рис. 6 подтверждает наш предварительный вывод: средние действительно различаются. Значимость 0.000 означает, что вычисленное значение меньше 0.0005.



Рисунок 6. Утренняя температура не равна вечерней

Хочу обратить внимание читателя вот на что. Мы проверяли гипотезу о том, что различаются средние двух переменных, предполагая при этом, что в остальном эти симметричные (!) распределения одинаковы. Причем «одинаковость» мы постулировали, никак не проверяя ее и даже не формулируя, что имеется в виду. Имеются критерии, которые позволяют проверить ту же гипотезу, предъявляя при этом гораздо более слабые требования к распределениям. Приведу лишь один пример: критерий знаков вообще не накладывает практически никаких условий на распределения. Конечно, ничто не дается даром – подобные критерии менее чувствительны, чем t-критерий, когда он применим, поскольку последний основан на более ограничительных предположениях. Меньшая чувствительность критерия проявляется в том, что он реже обнаруживает различия, когда на самом деле они есть. Правда, в данном случае все критерии «говорят» одно и то же: согласно таблицам на рис. 6 и 7 распределения утренней и вечерней температур различаются.



(а)


(б)


Рисунок 7. Два непараметрических критерия: утренняя температура не равна вечерней

Еще раз о различии утренней и вечерней температур

В предыдущем разделе мы исследовали пару переменных и обнаружили, что утренняя температура в среднем отличается от вечерней. Хотя этот факт может оказаться и тривиальным, мы продолжим изучение пары t.утро и t.вечер. На рис. 8 представлена диаграмма рассеяния для них. Посмотрите-ка: наблюдения явственно распадаются на две группы. Ну, конечно, первое, что приходит в голову – «дискриминация по половому признаку» и потому точки, представляющие пациентов разного пола, изображены по-разному. Ну, что же, первоначальное предположение получило блистательное подтверждение и нам теперь предстоит исследовать различия температур в двух группах, задаваемых переменной пол.

Рисунок 8. Диаграмма рассеяния позволяет обнаружить, что выборка распадается на две подгруппы


Рисунок 9. Ящичковые диаграммы подсказывают, что утренняя и вечерняя температуры различаются, видимо, лишь у женщин  

И снова, визуализация данных (рис. 9) прямо-таки диктует очередную гипотезу: различие между средними температурами по всей выборке объясняется более высокой вечерней температурой у женщин. Другими словами, нам предстоит проверить две гипотезы: о том, что утренняя и вечерняя температура равны в среднем у мужчин/женщин.

Проверка этой пары гипотез с помощью T-критерия в очередной раз подтверждает полезность визуализации: наблюденная значимость для гипотезы о различии утра и вечера у мужчин равна 0.6695, у женщин – меньше 0.00005. Таким образом, гипотеза о равенстве температур не отвергается у мужчин и отвергается у женщин


Рисунок 10. Согласно T-критерию утренняя температура отличается от вечерней лишь у женщин

Т-критерий для независимых выборок

Другое название – двухвыборочный t-критерий; предназначается для проверки гипотезы о том, что средние двух выборок (из двух генеральных совокупностей) равны друг другу.

Пример применения: Нулевая гипотеза состоит в том, что средний рост девочек 11 лет равняется среднему росту мальчиков 13 лет. Собираем две выборки – одна из 11-летних девочек, другая – из 13-летних мальчиков; объемы выборок не обязательно совпадают.

Равны ли средние температуры мужчин и женщин?

Проверяемые до сих пор гипотезы сводились к сравнению параметра совокупности с некоторым конкретным значением. Сейчас мы рассмотрим более сложную гипотезу, которая состоит в том, что средняя температура мужчин равна средней температуре женщин, чему бы ни были равны сами средние; мы проверим эту гипотезу отдельно для утра и вечера.

Ящичковые диаграммы на рис. 11 делают очевидным, что утренние температуры различаются меньше, чем вечерние. Таким образом, мы ожидаем, что наша нулевая гипотеза (о совпадении средних!) будет отвергнута; по крайней мере, для вечерних температур.


(а)


(б)


Рисунок 11. Ящичковые диаграммы распределений (а) утренней и (б) вечерней температур мужчин и женщин  

Эти предварительные выводы полностью подтверждаются применением T-критерия (рис. 12): наблюденная значимость (p-значение) для гипотезы о различии утренних температур равна 0.0239, что не дает оснований отвергнуть нулевую гипотезу о равенстве средних. Зато для вечерних температур наблюденная значимость меньше 0.00005 и потому нулевая гипотеза отвергается: вечерняя температура мужчин и женщин не равны друг другу, причем, как видно из знака разности, температура женщин выше; это видно также из рис. 11 (б).  


Рисунок 12. T-критерий для независимых выборок: различаются средние лишь вечерних температур мужчин и женщин  

Как и раньше, мы можем проверить совпадение двух распределений с помощью одного из непараметрических критериев, на рис. 13 представлены результаты применения критерия Колмогорова-Смирнова. Снова выводы совпадают с тем, что говорит нам параметрический критерий.


Рисунок 13. Критерий Колмогорова-Смирнова: распределения температур у мужчин и у женщин различаются

Итак…

Приложение. Как в SPSS…

…получить гистограмму распределения значений переменной

Гистограмму выдают многие статистические процедуры, среди них – Frequencies (Частоты), Explore (Разведочный анализ). Ее можно также получить, прямо через пункт Graph основного меню. Вот как запросить вывод гистограммы в процедуре Frequencies:

    Statistics
       Descriptives
          Frequencies…

В диалоговом окне процедуры (рис. 14) кликнуть кнопку Charts…, после чего выбрать Histograms в появившемся диалоговом окне (рис. 15).


Рисунок 14. Диалоговое окно процедуры Frequencies


Рисунок 15. Окно выбора типа визуализации в процедуре Frequencies

Если процедура применяется к непрерывной переменной, рекомендуется отменить вывод таблицы частот, убрав пометку в поле Display frequency tables.

…проверить нормальность распределения t.утро

Этот критерий используется для проверки гипотезы о совпадении распределений – «теоретического» и эмпирического (построенного по данным).

    Statistics
       Nonparametric Tests
          1-Sample K-S…

В появившемся диалоговом окне (рис. 16) нужно выбрать переменную (или несколько), распределение значений которой исследуется, и имя «теоретического» распределения – нормальное (Normal), равномерное (Uniform), Пуассона (Poisson) или экспоненциальное (Exponential). Необходимые параметры оцениваются по выборке без специального запроса.

    Statistics
       Nonparametric tests
          1-Sample K-S…
    Test variable list: t.утро
    Normal


Рисунок 16. Диалоговое окно «Одновыборочный критерий Колмогорова-Смирнова»

 

…проверить гипотезу о значении среднего значений переменной t.утро

    Statistics
       Compare Means
          One Sample T Test…
    Test Variable(s): t.утро
    Test Value: 36.6

…проверить гипотезу о совпадении средних переменных t.утро и t.вечер

    Statistics
       Compare Means
          Paired Samples T Test…
    Paired Variables: t.утро, t.вечер

…получить гистограмму рассеяния пары t.утро и t.вечер с разбиением по полу (рис.8)

    Statistics
       Scatter…

Мы приходим в диалоговое окно (рис. 17), где сообщаем, что собираемся строить простую (Simple) гистограмму, после чего, кликнув по кнопке Define, попадаем в окно процедуры (рис. 18), где задаем интересующую нас пару, а также сообщаем, что метить наблюдения нужно в соответствии с значениями признака пол.


Рисунок 17. Диалоговое окно, где задается тип диаграммы рассеяния


Рисунок 18. Диалоговое окно процедуры «Диаграмма рассеяния»

…получить ящичковые диаграммы с разбиением по полу (рис. 11)

    Statistics
       Descriptives
          Explore…
    Dependent List: t.утро, t.вечер
    Factor List:пол
    Plots…
    Dependents together

…проверить гипотезу о совпадении средних переменных t.утро и t.вечер отдельно для мужчин и женщин

Проверка этой гипотезы потребует от нас более изощренного владения средствами SPSS. Необходимо «расщепить» файл на две подвыборки, задаваемые значениями переменной пол:

    Data
       Split File…
    Compare groups
    Group Based on: пол

Рисунок 19. Диалоговое окно, позволяющее «расщепить» файл  

После этого описанный выше запуск процедуры Paired Samples T Test даст таблицу, приведенную на рис. 10. Впрочем, в данном случае мы получим схожие результаты, если выберем Organize output by groups; попробуйте!

 

…сравнить среднюю утреннюю температуру мужчин и женщин

Сохраните только что описанное расщепление файла или выберите в меню

   Data
      Split File…
   Compare groups
   Group Based on: пол

Запустите процедуру Explore, чтобы получить ящичковые диаграммы, приведенные на рис. 11.

После этого отмените расщепление:

    Data
    Split File…
    Analyze all cases, do not create groups

…запустить Т-критерий для независимых выборок

Чтобы получить таблицу рис. 12, запустите t-критерий для независимых выборок, задав в качестве группирующей переменную пол:

    Statistics
       Compare Means
          Independent-Samples T Test…
    Test Variable(s):t.утро,t.вечер
    Grouping Variable: пол
    Define Groups…
        Use specified values
        Group 1: 1
        Group 2: 2


Вы можете попасть на эту страницу по одному из следующих адресов:
http://learn.at/infoscope/Statistics/data_analysis/case_studies/Temperature/index.html
http://read.at/infoscope/Statistics/data_analysis/case_studies/Temperature/index.html
http://now.at/infoscope/Statistics/data_analysis/case_studies/Temperature/index.html

Дата последней модификации: 15 августа 2000 г.

1
Hosted by www.Geocities.ws