Домой Назад

О влиянии телевизоров на продолжительность жизни

Предварительные замечания

В данном тексте производится анализ данных о сорока крупнейших странах мира, предоставленных Allan J. Rossman, Dickinson College, Department of Mathematics and Computer Science, P.O. Box 1773, Carlisle, PA 17013, [email protected]. Автор пишет, что источник исходной информации - The World Almanac and Book of Facts, 1993, New York: Pharos Books. Анализ производится с помощью статистического пакета SPSS, в приложении описана последовательность телодвижений, необходимая для получения описанных здесь результатов.

Выборка относится к 1990 году и содержит 6 переменных, среди которых - ожидаемая продолжительность жизни, количество людей на один телевизор, количество людей на одного врача. Для целей настоящего анализа данные переведены в формат SPSS. Вот список исходных переменных: страна (название страны), жизнь (ожидаемая продолжительность жизни), тв (количество людей на один телевизионный приемник), врачи (количество людей на одного врача), женщины (ожидаемая продолжительность жизни женщин), мужчины (ожидаемая продолжительность жизни мужчин).

Этот набор данных, а также многие другие, предназначенные для учебных целей, можно найти на сайте http://www.stat.ncsu.edu/info/jse/; собственно данные находятся в файле televisions.dat, их описание - в файле televisions.txt. Те, кто почему-либо не может читать подобные тексты on-line, могут скачать этот текст.

От чего зависит продолжительность жизни?

Естественно начать исследование с влияния на продолжительность жизни количества врачей, приходящихся на душу населения. На рисунке 1 приведена диаграмма рассеяния переменных жизнь и врачи; на диаграмму нанесена также линия регрессии, а снизу указано значение коэффициента детерминации R2. Поскольку для нас естественно рассматривать продолжительность жизни, как зависимую переменную, а обеспеченность врачами, как независимую, значения переменной врачи отложены по оси абсцисс (горизонтальной), а переменной жизнь - по оси ординат.

На рис. 1 (а) представлена диаграмма рассеяния этих переменных в исходном масштабе. Мы видим, что точки группируются около осей, отсюда мы заключаем, что распределение переменной врачи несимметрично; поскольку мы собираемся применять линейные методы, переменную неплохо бы симметризовать. Один из часто применяемых для этого способов - логарифмическое преобразование переменной. Полезность логарифмирования в нашем случае подтверждает часть (б) рис. 1, где по оси абсцисс значения переменной врачи отложены в логарифмическом масштабе. Полезность этого преобразования подтверждает также рис. 2, на котором слева представлена ящичковая диаграмма переменной врачи, справа - ее логарифма. Мы видим, что в результате логарифмирования исчезли выбросы, а распределение стало более симметричным. Кроме того, и коэффициент детерминации R2, приведенный на обеих частях рисунка 1 (см. Rsq внизу), резко возрастает в результате логарифмирования.
 
(а) R2 = 0.4436
(б) R2 = 0.6926

Рис. 1. Диаграмма рассеяния переменных жизнь (ось ординат) и врачи (ось абсцисс): (а) в исходном масштабе; (б) переменная врачи в логарифмическом масштабе. Обратите внимание: в обоих случаях обеспеченность врачами убывает при движении по оси абсцисс вправо
 

(а)

(б)

Рис. 2. Ящичковые диаграммы для переменных (а) врачи и (б) ln_врачи
 

(а)

(б)

Рис. 3. Ящичковые диаграммы для переменной жизнь (а) и ее логарифма (б)

Обратите внимание и на переменную жизнь: быть может, ее тоже имеет смысл прологарифмировать? На рис. 3 представлены ящичковые диаграммы для переменной жизнь и ее логарифма. Мы видим, что логарифмирование не приводит к симметричному распределению.

Построив также линейную регрессию независимой переменной ln_врачи на зависимую ln_жизнь, мы увидим, что коэффициент детерминации R2 увеличится, но совсем мало. Таким образом, логарифмирование переменной жизнь малоосмысленно.

Количество врачей на душу населения - один из показателей развитости экономики страны. Рассмотрим теперь другой показатель - обеспеченность телевизорами; повторим для него все то, что сделано для переменной врачи. На рисунке 4 приводится диаграмма рассеяния переменных жизнь и тв; на диаграмму нанесена также линия регрессии, а снизу указано значение коэффициента детерминации R2. Поскольку для нас естественно рассматривать продолжительность жизни, как зависимую переменную, а обеспеченность телевизорами, как независимую, значения переменной тв откладываются по оси абсцисс (горизонтальной), а переменной жизнь - по оси ординат.
 
(а) R2 = 0.3671
(б) R2 = 0.7312

Рис. 4. Диаграмма рассеяния переменных жизнь (ось ординат) и тв (ось абсцисс): (а) в исходном масштабе; (б) переменная тв в логарифмическом масштабе. Обратите внимание: в обоих случаях обеспеченность телевизорами убывает при движении по оси абсцисс вправо
 

(а)

(б)

Рис. 5. Ящичковые диаграммы для переменных тв (а) и ln_тв (б)

На рис. 4 (а) диаграмма рассеяния этих переменных представлена в исходном масштабе. Мы снова видим, что точки группируются около осей, откуда мы снова умозаключаем, что распределение переменной тв несимметрично; применим логарифмическое преобразование переменной. Полезность логарифмирования подтверждается частью (б) рис. 4, где по оси абсцисс значения переменной тв отложены в логарифмическом масштабе. Полезность логарифмирования подтверждается также рис. 5, на котором слева представлена ящичковая диаграмма переменной тв, а справа - логарифма этой переменной. Мы видим, что в результате логарифмирования количество выбросов резко уменьшилось, а распределение стало более симметричным.

Оценка регрессоров

Рассмотрим теперь регрессионные зависимости более подробно. Коэффициент детерминации R2 для регрессии продолжительности жизни по ln_врачи равняется 0.6926, а по переменной ln_тв - 0.7312. Различие не слишком велико, но позволяет заключить, что переменная ln_тв является лучшим предиктором, чем ln_врачи. Согласно стандартной интерпретации это означает, что количество телевизоров на душу населения сильнее влияет на продолжительность жизни, чем количество врачей на ту же душу!

Итак...

Проведенный анализ в очередной раз демонстрирует, что высокая коррелированность переменных вовсе не равнозначна причинной зависимости между ними.

В самом деле, мы установили, что телевизоры влияют на продолжительность жизни. Вот лишь три причинные интерпретации этого неоспоримого факта из множества возможных:

  1. (тв  жизнь) телепрограммы о здоровом образе жизни все-таки полезны!
  2. (жизнь  тв) старикам остаются лишь телевизор и сериалы
  3. (жизнь  X  тв) скрытый фактор - экономический уровень.

Предоставляю читателю придумать интересные причинные интерпретации высокой коррелированности числа врачей и продолжительности жизни. А можете ли вы изобрести объяснение того, что число врачей - худший предиктор продолжительности жизни, чем число телевизоров?

В качестве полезного упражнения вы можете проверить, сохраняются ли полученные здесь результаты, если рассматривать средние продолжительности жизни мужчин и женщин по отдельности.

Приложение: Как в SPSS получить...

...диаграмму рассеяния переменных врачи и жизнь

Выберите в меню
   Graphs
      Scatter...
В диалоговом окне выберите Simple и кликните кнопку Define.
   move rightY Axis: жизнь
   move rightX Axis: врачи
   move rightLabel Cases by:страна
Вы получите график, изображенный на рис. 1(а). Кликните по нему дважды, чтобы перейти в режим редактирования диаграмм. Выберите в меню
   Chart
      Axis...
В появившемся диалоговом окне выберите X scale и кликните OK. Появится диалоговое окно, позволяющее управлять параметрами горизонтальной оси. В нем задайте
   Scale
   radio buttonLog
Вы получите график, приведенный на рис. 1(б), правда, не столь красивый.

Чтобы добавить к нему регрессионную прямую, выберите

   Chart
      Options...

      check markFit Line
         Fit Options...

      Regression Options
      check markDisplay R square in Legend
Чтобы выйти из режима редактирования, кликните
   File
      Close
Если вам понадобится перенести полученный график из SPSS в Word, кликните на графике правой кнопкой мыши и в появившемся меню выберите Copy. Далее действуйте стандартно.

...ящичковую диаграмму переменной врачи

   Statistics
      Summarize
         Explore...

         move rightDependent List: врачи
         move rightLabel Cases by: страна

         Display
         radio buttonPlots

...логарифм переменной врачи

   Transform
      Compute...

   Target variable: ln_врачи
   Numeric Expression: ln(врачи)


Вы можете попасть на эту страницу по одному из следующих адресов:
http://learn.at/infoscope/Statistics/data_analysis/case_studies/TV/index.html
http://read.at/infoscope/Statistics/data_analysis/case_studies/TV/index.html
http://now.at/infoscope/Statistics/data_analysis/case_studies/TV/index.html

Дата последней модификации: 20 сентября 2000 г.

Hosted by www.Geocities.ws

1