6 Sezonowość

Jednym z rodzajów szeregu statystycznego jest szereg czasowy, który można zdefiniować jako ciąg obserwacji jakiegoś zjawiska w kolejnych jednostkach czasu (latach, kwartałach, miesiącach). Rozważane zjawisko może podlegać pewnym prawidłowościom, których wykrycie i opis jest celem analizy szeregów czasowych. Najczęściej rozważa się cztery czynniki wpływające na rozwój zjawiska w czasie:

  • trend (TtTt) — długookresowe, systematyczne zmiany, jakim podlega dane zjawisko,
  • wahania sezonowe (StSt) — regularne odchylenia od tendencji rozwojowej (trendu) związane np. z porami roku (warunkami klimatycznymi),
  • wahania cykliczne (Ct) — związane z cyklem koniunkturalnym,
  • wahania przypadkowe (It) — nieregularne zmiany.

Analiza danych, które mogą charakteryzować się sezonowością rozpoczyna się od wizualizacji oraz estymacji parametrów modelu liniowego. W tym celu posłużymy się dwoma przykładami. Pierwszy będzie dotyczył zużycia energii elektrycznej, a drugi przewozów ładunków w Polsce - plik.

Zużycie energii - dane oryginalne

Zużycie energii - dane oryginalne

Przewóz ładunków - dane oryginalne

Przewóz ładunków - dane oryginalne

W obu przypadkach dysponujemy danymi kwartalnymi za lata 2003–2005. Na pierwszy rzut oka możemy wskazać pewne prawidłowości: zużycie energii jest widocznie wyższe w drugich i czwartych kwartałach analizowanych lat. Z kolei przewozy ładunków wzrastają od kwartału pierwszego do trzeciego (w którym osiągają maksimum w danym roku), by następnie spaść.

Celem analizy będzie ilościowe określenie wielkości zmian sezonowych, tak aby było możliwe prognozowanie z uwzględnieniem tych czynników.

6.1 Trend liniowy

Pierwszym krokiem w analizie szeregu czasowego jest estymacja parametrów trendu liniowego.

Dla przykładu pierwszego dotyczącego zużycia energii funkcja regresji przyjmuje następującą postać:

ˆyt=0,15t+2,99

w której współczynnik kierunkowy informuje o tym, że z kwartału na kwartał zużycie energii rosło przeciętnie o 0,15 MWh. Z kolei wyraz wolny równy 2,99 oznacza, że w okresie t=0 czyli w IV kwartale 2002 roku, teoretyczne zużycie energii wynosiło 2,99 MWh.

W drugim z analizowanych przykładów — przewozów ładunków — model wyglądał następująco:

ˆyt=0,38t+25,13

co oznacza, że z kwartału na kwartał przewóz ładunków wzrastał średnio o 0,38 mln ton, natomiast w IV kwartale 2002 roku modelowa wartość przewozów ładunków wynosiła 25,13 mln ton.

Na podstawie wyznaczonych funkcji regresji można obliczyć wartości teoretyczne (ˆyt) zużycia energii oraz przewozów ładunków i pod postacią prostej przestawić na wykresie.

Zużycie energii - trend liniowy Przewóz ładunków - trend ilniowy

Otrzymane wartości wynikające z funkcji trendu (ˆyt) mają charakter liniowy i prawdę rzecz ujmując słabo dopasowują się do danych empirycznych. Współczynnik R2 w przykładzie pierwszym wynosi 41%, a w przykładzie drugim tylko 37%. Ponadto, jeśli chcielibyśmy prognozować na kolejne okresy to według funkcji trendu wartości zużycia energii dla kwartałów pierwszych byłyby przeszacowane, a dla kwartałów czwartych niedoszacowane. Stąd zachodzi potrzeba uwzględnienia w modelu występowania sezonowości, którą obserwujemy w danych.

Pierwszym krokiem jest identyfikacja rodzaju tej sezonowości. Może ona mieć charakter addytywny — wtedy wahania sezonowe są stałe w poszczególnych okresach (por. przykład 1) lub multiplikatywny, kiedy czynniki sezonowe są proporcjonalne do funkcji trendu (por. przykład 2). W zależności od zidentyfikowanego charakteru należy obliczyć wskaźniki sezonowości. W pierwszej kolejności rozważymy model addytywny.

6.2 Model addytywny

Analizę modelu addytywnego należy rozpocząć od wyznaczenia różnic pomiędzy wartościami empirycznymi (y) a modelowymi (ˆy) dla poszczególnych okresów zgodnie ze wzorem:

Sit=ytˆyt

Następnie dla każdego z analizowanych podokresów (półroczy, kwartałów, miesięcy) oblicza się surowe wskaźniki sezonowości uśredniając wyznaczone wcześniej różnice:

Si=mi=1Sitp

gdzie:

  • m — liczba podokresów (półroczy, kwartałów, miesięcy),
  • p — liczba analizowanych lat.

W analizowanym przez nas przykładzie musimy wyznaczyć surowe wskaźniki sezonowości dla każdego kwartału. Ponadto jeśli spełniona będzie zależność mi=1Si=0 to oznacza, że wskaźniki sezonowości są wolne od wahań przypadkowych. W praktyce jednak rzadko zdarza się taka sytuacja. W takim przypadku należy jeszcze wyznaczyć współczynnik korygujący zgodnie z wzorem:

k=mi=1Sim

a następnie skorygować surowe wskaźniki sezonowości według formuły

Soi=Sik

otrzymując tzw. oczyszczone wskaźniki sezonowości, które informują o średnich odchyleniach od funkcji trendu w poszczególnych podokresach. Dla tych wskaźników zachodzi zależność: mi=1Soi=0. W przykładzie 1 oczyszczone wskaźniki sezonowości dla poszczególnych kwartałów są równe:

Wskaźnik Wartość Interpretacja
So1 -0,62 w pierwszych kwartałach lat 2003–2005 zużycie energii było mniejsze średnio o 0,62 MWh niż wynika to z funkcji trendu
So2 0,33 w drugich kwartałach lat 2003–2005 zużycie energii było większe średnio o 0,33 MWh niż wynika to z funkcji trendu
So3 -0,51 w trzecich kwartałach lat 2003–2005 zużycie energii było mniejsze średnio o 0,51 MWh niż wynika to z funkcji trendu
So4 0,81 w czwartych kwartałach lat 2003–2005 zużycie energii było większe średnio o 0,81 MWh niż wynika to z funkcji trendu
Suma 0,00 wskaźniki sezonowości są wolne od wahań przypadkowych

Kolejnym etapem analizy jest wyznaczenie zmodyfikowanych wartości teoretycznych uwzględniających sezonowość. Te wartości oznaczane jako ˆy uzyskujemy dodając do wartości teoretycznych (ˆy) odpowiednie dla poszczególnych podokresów oczyszczone wskaźniki sezonowości Soi. Formalny zapis jest następujący:

ˆy=ˆy+Soi

Wartości ˆy przedstawione na wykresie już znacznie lepiej pasują do posiadanych danych empirycznych:

Zużycie energii - trend z sezonowością

Zużycie energii - trend z sezonowością

Na podstawie tak zmodyfikowanego modelu można prognozować przyszłe wartości z dużo większą precyzją. Prognozowanie w modelu addytywnym polega na podstawieniu numeru okresu dla którego się prognozuje do funkcji trendu, a następnie dodanie odpowiedniego wskaźnika sezonowości:

ˆyPT=ˆy+Soi=a1T+a0+Soi

Interesuje nas prognozowane zużycie energii w IV kwartale 2008 roku. Ten okres przyjmuje wartość t=24, natomiast wskaźnik sezonowości dla czwartego kwartału jest równy 0,81 MWh. Powyższe wartości podstawiamy do wzoru:

ˆyP24=0,1524+2,99+0,81=7,4

co oznacza, że prognozowane zużycie energii w IV kwartale 2008 roku wyniesie 7,4 MWh.

6.3 Model multiplikatywny

W modelu multiplikatywnym zamiast różnic pomiędzy wartościami teoretycznymi a modelowymi oblicza się ich iloraz zgodnie ze wzorem:

Sit=ytˆyt

Następnie dla każdego z analizowanych podokresów (półroczy, kwartałów, miesięcy) oblicza się surowe wskaźniki sezonowości uśredniając wyznaczone wcześniej ilorazy:

Si=mi=1Sitp

gdzie:

  • m — liczba podokresów (półroczy, kwartałów, miesięcy),
  • p — liczba analizowanych lat.

W analizowanym przez nas przykładzie musimy wyznaczyć surowe wskaźniki sezonowości dla każdego kwartału. W przypadku sezonowości multiplikatywnej zależność oznaczająca, że wskaźniki sezonowości są wolne od wahań przypadkowych jest wyrażona następująco: mi=1Si=m. W praktyce jednak rzadko zdarza się taka sytuacja. W takim przypadku należy jeszcze wyznaczyć współczynnik korygujący zgodnie z wzorem:

k=mi=1Sim

a następnie skorygować surowe wskaźniki sezonowości według formuły

Soi=Si/k

otrzymując tzw. oczyszczone wskaźniki sezonowości, które informują o średnich odchyleniach od funkcji trendu w poszczególnych podokresach. Dla tych wskaźników zachodzi zależność: mi=1Soi=m. W przykładzie 2 oczyszczone wskaźniki sezonowości możemy zapisać w postaci procentowej i dla poszczególnych kwartałów są równe:

Wskaźnik Wartość Interpretacja
So1 96,5% w pierwszych kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 3,5% niższe niż wynika to z funkcji trendu
So2 100,1% w drugich kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 0,1% wyższe niż wynika to z funkcji trendu
So3 108,9% w trzecich kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 8,9% wyższe niż wynika to z funkcji trendu
So4 94,5% w czwartych kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 5,5% niższe niż wynika to z funkcji trendu
Suma 400,00% wskaźniki sezonowości są wolne od wahań przypadkowych

Kolejnym etapem analizy jest wyznaczenie zmodyfikowanych wartości teoretycznych uwzględniających sezonowość. Te wartości oznaczane jako ˆy uzyskujemy mnożąc wartości teoretyczne (ˆy) odpowiednie dla poszczególnych podokresów przez oczyszczone wskaźniki sezonowości Soi. Formalny zapis jest następujący:

ˆy=ˆySoi

Wartości ˆy przedstawione na wykresie już znacznie lepiej pasują do posiadanych danych empirycznych:

Przewóz ładunków - trend z sezonowością

Przewóz ładunków - trend z sezonowością

Na podstawie tak zmodyfikowanego modelu można prognozować przyszłe wartości z dużo większą precyzją. Prognozowanie w modelu multiplikatywnym polega na podstawieniu numeru okresu dla którego się prognozuje do funkcji trendu, a następnie przemnożenie przez odpowiedni wskaźnik sezonowości:

ˆyPT=ˆySoi=(a1T+a0)Soi

Interesuje nas prognozowane zużycie energii w III kwartale 2006 roku. Ten okres przyjmuje wartość t=15, natomiast wskaźnik sezonowości dla kwartału trzeciego jest równy 108,9%. Powyższe wartości podstawiamy do wzoru:

ˆyP15=(0,3815+25,13)108,9%=33,6

co oznacza, że prognozowane przewozy ładunków w III kwartale 2006 roku wyniosą 33,6 mln ton.

6.4 Ocena jakości

Ostatnim elementem analizy sezonowości jest ocena jakości otrzymanego modelu. W takim przypadku nie wyznaczamy współczynnika R2 ponieważ z definicji dotyczy on wyłącznie zależności liniowej. Główną miarą jakości będzie odchylenie standardowe składnika resztowego z uwzględnieniem sezonowości:

Su=nt=1(ytˆyt)2n2

Licznik odchylenia standardowego zawiera sumę kwadratów odchyleń wartości empirycznych (yt) od wartości modelowych z sezonowością (ˆyt). Nie ma już tutaj znaczenia czy model był addytywny czy multiplikatywny.

W przykładzie pierwszym Su wynosiło 0,16 MWh, co oznacza, że rzeczywiste zużycie energii różni się od zużycia teoretycznego wyznaczonego na podstawie szeregu czasowego średnio o +/- 0,16 MWh. Z kolei w przykładzie drugim Su wynosiło 0,74 mln ton, a co za tym idzie rzeczywiste przewozy różnią się od przewozów teoretycznych uzyskanych w oparciu o model szeregu czasowego średnio o +/- 0,74 mln ton.

6.5 Błąd prognozy

Wyliczona wartość Su niezbędna jest przy wyznaczaniu błędu prognozy zgodnie ze wzorem:

D(yPT)=Su1+1n+(Tˉt)2nt=1(tˉt)2

w którym uwzględniamy możliwość wzrostu tego błędu wraz z oddalaniem się od zakresu danych, które posiadamy.

Dla analizowanych przykładów otrzymano następujące błędy prognozy:

  • przykład 1 — zużycie energii

Przy prognozie dla IV kwartału 2008 roku

D(yP24)=0,29

co oznacza, że prognozowane zużycie energii w IV kwartale 2008 roku wyniesie 7,4 +/- 0,29 MWh. - przykład 2 — przewóz ładunków

Przy prognozie dla III kwartału 2006 roku

D(yP24)=0,93

co oznacza, że prognozowane przewozy w III kwartale 2006 roku wyniosą 33,6 +/- 0,93 mln ton.

Na podstawie otrzymanych prognoz oraz ich błędów można wyznaczyć przedziały, w których spodziewamy się wartości rzeczywistej.