Выборка относится к 1990 году и содержит 6 переменных, среди которых - ожидаемая продолжительность жизни, количество людей на один телевизор, количество людей на одного врача. Для целей настоящего анализа данные переведены в формат SPSS. Вот список исходных переменных: страна (название страны), жизнь (ожидаемая продолжительность жизни), тв (количество людей на один телевизионный приемник), врачи (количество людей на одного врача), женщины (ожидаемая продолжительность жизни женщин), мужчины (ожидаемая продолжительность жизни мужчин).
Этот набор данных, а также многие другие, предназначенные для учебных целей, можно найти на сайте http://www.stat.ncsu.edu/info/jse/; собственно данные находятся в файле televisions.dat, их описание - в файле televisions.txt. Те, кто почему-либо не может читать подобные тексты on-line, могут скачать этот текст.
На рис. 1 (а) представлена диаграмма рассеяния этих переменных в исходном
масштабе. Мы видим, что точки группируются около осей, отсюда мы заключаем,
что распределение переменной врачи несимметрично; поскольку мы собираемся
применять линейные методы, переменную неплохо бы симметризовать. Один из
часто применяемых для этого способов - логарифмическое преобразование переменной.
Полезность логарифмирования в нашем случае подтверждает часть (б) рис. 1,
где по оси абсцисс значения переменной врачи отложены в логарифмическом
масштабе. Полезность этого преобразования подтверждает также рис. 2, на
котором слева представлена ящичковая диаграмма переменной врачи,
справа - ее логарифма. Мы видим, что в результате логарифмирования исчезли
выбросы, а распределение стало более симметричным. Кроме того, и коэффициент
детерминации R2, приведенный на обеих частях рисунка 1 (см.
Rsq внизу), резко возрастает в результате логарифмирования.
|
|
Рис. 1. Диаграмма рассеяния переменных жизнь (ось ординат)
и врачи (ось абсцисс): (а) в исходном масштабе; (б) переменная врачи
в логарифмическом масштабе. Обратите внимание: в обоих случаях обеспеченность
врачами убывает при движении по оси абсцисс вправо
(а) |
(б) |
Рис. 2. Ящичковые диаграммы для переменных (а) врачи и (б)
ln_врачи
(а) |
(б) |
Рис. 3. Ящичковые диаграммы для переменной жизнь (а) и ее логарифма (б)
Обратите внимание и на переменную жизнь: быть может, ее тоже имеет смысл прологарифмировать? На рис. 3 представлены ящичковые диаграммы для переменной жизнь и ее логарифма. Мы видим, что логарифмирование не приводит к симметричному распределению.
Построив также линейную регрессию независимой переменной ln_врачи на зависимую ln_жизнь, мы увидим, что коэффициент детерминации R2 увеличится, но совсем мало. Таким образом, логарифмирование переменной жизнь малоосмысленно.
Количество врачей на душу населения - один из показателей развитости
экономики страны. Рассмотрим теперь другой показатель - обеспеченность
телевизорами; повторим для него все то, что сделано для переменной врачи.
На рисунке 4 приводится диаграмма рассеяния переменных жизнь и тв;
на диаграмму нанесена также линия регрессии, а снизу указано значение
коэффициента детерминации R2. Поскольку для нас естественно
рассматривать продолжительность жизни, как зависимую переменную, а обеспеченность
телевизорами, как независимую, значения переменной тв откладываются
по оси абсцисс (горизонтальной), а переменной
жизнь - по оси ординат.
|
|
Рис. 4. Диаграмма рассеяния переменных жизнь (ось ординат)
и тв (ось абсцисс): (а) в исходном масштабе; (б) переменная
тв
в логарифмическом масштабе. Обратите внимание: в обоих случаях обеспеченность
телевизорами убывает при движении по оси абсцисс вправо
(а) |
(б) |
Рис. 5. Ящичковые диаграммы для переменных тв (а) и ln_тв (б)
На рис. 4 (а) диаграмма рассеяния этих переменных представлена в исходном масштабе. Мы снова видим, что точки группируются около осей, откуда мы снова умозаключаем, что распределение переменной тв несимметрично; применим логарифмическое преобразование переменной. Полезность логарифмирования подтверждается частью (б) рис. 4, где по оси абсцисс значения переменной тв отложены в логарифмическом масштабе. Полезность логарифмирования подтверждается также рис. 5, на котором слева представлена ящичковая диаграмма переменной тв, а справа - логарифма этой переменной. Мы видим, что в результате логарифмирования количество выбросов резко уменьшилось, а распределение стало более симметричным.
В самом деле, мы установили, что телевизоры влияют на продолжительность жизни. Вот лишь три причинные интерпретации этого неоспоримого факта из множества возможных:
Предоставляю читателю придумать интересные причинные интерпретации высокой коррелированности числа врачей и продолжительности жизни. А можете ли вы изобрести объяснение того, что число врачей - худший предиктор продолжительности жизни, чем число телевизоров?
В качестве полезного упражнения вы можете проверить, сохраняются ли полученные здесь результаты, если рассматривать средние продолжительности жизни мужчин и женщин по отдельности.
Graphs
Scatter...
В диалоговом окне выберите Simple и кликните
кнопку Define.
Вы получите график, изображенный на рис. 1(а). Кликните по нему дважды, чтобы перейти в режим редактирования диаграмм. Выберите в менюY Axis: жизнь
X Axis: врачи
Label Cases by:страна
Chart
Axis...
В появившемся диалоговом окне выберите X scale
и кликните OK. Появится диалоговое окно,
позволяющее управлять параметрами горизонтальной оси. В нем задайте
ScaleВы получите график, приведенный на рис. 1(б), правда, не столь красивый.Log
Чтобы добавить к нему регрессионную прямую, выберите
Chart
Options...
Fit Line
Fit Options...
Regression Options
Display R square in Legend
Чтобы выйти из режима редактирования, кликните
File
Close
Если вам понадобится перенести полученный график из SPSS в Word, кликните
на графике правой кнопкой мыши и в появившемся меню выберите Copy.
Далее действуйте стандартно.
Statistics
Summarize
Explore...
Dependent List: врачи
Label Cases by: страна
Display
Plots
Transform
Compute...
Target variable: ln_врачи
Numeric Expression: ln(врачи)
Вы можете попасть на эту страницу по одному из следующих адресов:
http://learn.at/infoscope/Statistics/data_analysis/case_studies/TV/index.html
http://read.at/infoscope/Statistics/data_analysis/case_studies/TV/index.html
http://now.at/infoscope/Statistics/data_analysis/case_studies/TV/index.html

Дата последней модификации: 20 сентября 2000 г.