Анализ данных о посетителях кафе

В данном тексте я иллюстрирую взаимодействие сезонного разложения временного ряда и регрессионных моделей. Данные содержат 64 наблюдения — ежедневно измерялось количество посетителей кафе, записывались средние по месяцам (источник данных пожелал остаться неизвестным). Посмотрим, что можно сказать о перспективах кафе. Для анализа данные переведены в формат SPSS. В приложении показано, как в SPSS получить основные результаты.

Естественно, начинать нужно с всегда рекомендуемого визуального анализа (рис. 1). Пожалуй, единственное, что я здесь вижу – это явственную сезонную компоненту. При этом, поскольку дисперсия ряда вроде бы не зависит от текущего уровня, здесь, видимо, подходит аддитивная модель, согласно которой y_t = T_t + S_t + eps.t , где T_t – тренд, S_t – сезонная компонента, eps.t – ошибка. Для разделения ряда на компоненты использована процедура SPSS Seasonal Decomposition (сезонная декомпозиция).

Рассмотрим, прежде всего, график сезонной компоненты (рис. 2). Посмотрите-ка: похоже, что наибольшее количество клиентов в наше кафе приходят летом, наименьшее – под Новый Год! Наше кафе торгует прохладительными напитками и мороженым?

fig.1

Рис. 1. Среднее количество клиентов в день по месяцам

fig.2

Рис. 2. Чем торгует наше кафе? Почему максимумы летом?

fig.3

Рис. 3. Аддитивная модель сезонной декомпозиции

Рассмотрим теперь график, на котором представлены тренд ряда и ряд с исключенной сезонностью (рис. 3). Видно что-нибудь, кроме того, что данные с исключенной сезонной компонентой демонстрируют довольно сильную вариабельность?

Можем ли мы сказать что-нибудь полезное о тренде? Прежде всего, хочется заметить, что тренд, по-видимому, не линеен. Попробуем поискать наилучшую зависимость тренда от времени. Для этого использована процедура SPSS Curve Estimation, позволяющая оценить сразу несколько одномерных регрессий.

В нижеследующей таблице представлены результаты подгонки:

Dependent

Mth

Rsq

d.f.

F

Sigf

b0

b1

b2

b3

тренд

LIN

.048

62

3.11

.083

54.306

-.014

тренд

POW

.118

62

8.27

.006

55.287

-.008

тренд

INV

.138

62

9.93

.002

53.637

3.039

тренд

QUA

.163

61

5.95

.004

55.226

-.097

.0013

тренд

CUB

.167

60

4.00

.012

55.028

-.062

-.00006

.000014

Рис. 4. Результаты подгонки нескольких одномерных регрессий

Мы видим, что, как и ожидалось, линейная модель не значима, а кубическая модель значима на уровне 0.05 и не значима на уровне 0.01. Мы не будем рассматривать их далее. Итак, нам предстоит выбирать среди следующих трех моделей:

гипербола (inv): клиенты = 53.637 + 3.039/N

квадрат (qua): qua

степень (pow): pow

Модели представлены здесь в порядке возрастания показателя качества, которым служит коэффициент детерминации (столбец Rsq). На рис. 5 (а) представлены графики найденных зависимостей. Дополнительным подтверждением разумности примененной процедуры выделения тренда хочется считать то, что аналогичные регрессии для исходного ряда, «очищенного» от влияния сезонности, приведенные на рис. 5 (б), полностью аналогичны.

fig.5.a

(а)

fig.5.b

(б)

Рис. 5. Три регрессионные модели для:
(а) выделенного тренда;
(б) исходного ряда, очищенного от сезонной компоненты

Посмотрите, мы получили модели на любой вкус. Гиперболическая модель (inv) говорит, что среднее количество клиентов, а, значит, и прибыль, постепенно уменьшаясь, приближается к некоему минимуму, квадратичная (qua) утверждает, что худшее позади и началось время успеха и постепенного роста благосостояния, степенная же модель (pow) предсказывает медленное, но неуклонное сползание в финансовую пропасть.

Какую же модель выбрать? Ну, конечно, этот вопрос лежит за пределами статистики. Но все-таки, чего ожидать в ближайшем будущем? Ведь от ответа зависят и ближайшие планы владельца кафе. В самом деле, если верна inv-модель, нужно что-то менять, чтобы количество клиентов начало возрастать, если принять pow-модель, нужно срочно начинать санационные мероприятия. Квадратичная же модель позволяет, пусть временно, попочивать на лаврах. Так какую же модель выбрать?

Чтобы еще ухудшить жизнь читателя, я предлагаю в дополнение к диаграмме, приведенной на рис. 5 (а), рассмотреть еще результаты работы той же процедуры Curve Estimation, примененные к исходным данным, до освобождения их от сезонной компоненты. Видите совсем разное поведение аппроксимирующих кривых? Так какую же модель выбрать?

fig.6

Рис. 6. Результаты работы процедуры Curve Estimation на исходных данных

Приложение. Как в SPSS…

Здесь показано, каким образом в SPSS можно получить некоторые из приведенных результатов.

…задать даты – интервал измерений нашего ряда

Наши данные начинаются в январе 1990 г. и кончаются в апреле 1995 г. Выбираем в меню

    Data
       Define Dates…

В появившемся диалоговом окне (рис. 7) устанавливаем

    Cases Are: Years, months
    First Case is:
       Year: 1990
       Month: 1

После нажатия кнопки OK будут созданы переменные year_, month_, date_ с очевидной семантикой.

Рис. 7. Диалоговое окно «Задание начальной даты»

…получить график значений ряда (рис. 1)

Нужные нам значения в файле cafe.sav содержит переменная клиенты. Выбираем в меню

    Graphs
       Sequence…              (рис. 8)

    Variables:клиенты
    Time Axis Labels: date_

fig.8

Рис. 8. Диалоговое окно «График последовательности»

…запустить сезонную декомпозицию

Выбираем в меню

   Statistics
      Time Series
         Seasonal Decomposition…
   Variables:клиенты

   Model
   Additive

В результате будут созданы следующие переменные:

SAF_1 с сезонной компонентой ряда;
STC_1 с трендом ряда;
SAS_1 с значениями переменной клиенты, “очищенными” от влияния сезонной компоненты;
ERR_1 с значениями переменной клиенты, “очищенными” от влияния сезонной и трендовой компонент, остаток модели.

Переменную STC_1 я переименую в тренд, а SAF_1 – в сезон.

…запустить процедуру подгонки сразу нескольких одномерных регрессий

Для этого применим процедуру Curve Estimation, которая позволяет построить сразу несколько одномерных регрессий:

   Statistics
      Regression
         Curve Estimation…

   Dependent: клиенты
   Independent: time
   Models:
      Inverse
      Quadratic
      Power

Вот как выглядит соответствующее диалоговое окно:

Рис. 9. Заполненное диалоговое окно процедуры Curve Estimation

Вы можете попасть на эту страницу по одному из следующих адресов:
http://learn.at/infoscope/Statistics/data_analysis/case_studies/cafe/index.html
http://read.at/infoscope/Statistics/data_analysis/case_studies/cafe/index.html
http://now.at/infoscope/Statistics/data_analysis/case_studies/cafe/index.html

Дата последней модификации: 20 сентября 2000 г.

Hosted by www.Geocities.ws

Dependent	Mth	Rsq	d.f.	F	Sigf	b0	b1	b2	b3
тренд	LIN	.048	62	3.11	.083	54.306	-.014
тренд	POW	.118	62	8.27	.006	55.287	-.008
тренд	INV	.138	62	9.93	.002	53.637	3.039
тренд	QUA	.163	61	5.95	.004	55.226	-.097	.0013
тренд	CUB	.167	60	4.00	.012	55.028	-.062	-.00006	.000014