6 Sezonowość
Jednym z rodzajów szeregu statystycznego jest szereg czasowy, który można zdefiniować jako ciąg obserwacji jakiegoś zjawiska w kolejnych jednostkach czasu (latach, kwartałach, miesiącach). Rozważane zjawisko może podlegać pewnym prawidłowościom, których wykrycie i opis jest celem analizy szeregów czasowych. Najczęściej rozważa się cztery czynniki wpływające na rozwój zjawiska w czasie:
- trend (TtTt) — długookresowe, systematyczne zmiany, jakim podlega dane zjawisko,
- wahania sezonowe (StSt) — regularne odchylenia od tendencji rozwojowej (trendu) związane np. z porami roku (warunkami klimatycznymi),
- wahania cykliczne (Ct) — związane z cyklem koniunkturalnym,
- wahania przypadkowe (It) — nieregularne zmiany.
Analiza danych, które mogą charakteryzować się sezonowością rozpoczyna się od wizualizacji oraz estymacji parametrów modelu liniowego. W tym celu posłużymy się dwoma przykładami. Pierwszy będzie dotyczył zużycia energii elektrycznej, a drugi przewozów ładunków w Polsce - plik.

Zużycie energii - dane oryginalne

Przewóz ładunków - dane oryginalne
W obu przypadkach dysponujemy danymi kwartalnymi za lata 2003–2005. Na pierwszy rzut oka możemy wskazać pewne prawidłowości: zużycie energii jest widocznie wyższe w drugich i czwartych kwartałach analizowanych lat. Z kolei przewozy ładunków wzrastają od kwartału pierwszego do trzeciego (w którym osiągają maksimum w danym roku), by następnie spaść.
Celem analizy będzie ilościowe określenie wielkości zmian sezonowych, tak aby było możliwe prognozowanie z uwzględnieniem tych czynników.
6.1 Trend liniowy
Pierwszym krokiem w analizie szeregu czasowego jest estymacja parametrów trendu liniowego.
Dla przykładu pierwszego dotyczącego zużycia energii funkcja regresji przyjmuje następującą postać:
ˆyt=0,15⋅t+2,99
w której współczynnik kierunkowy informuje o tym, że z kwartału na kwartał zużycie energii rosło przeciętnie o 0,15 MWh. Z kolei wyraz wolny równy 2,99 oznacza, że w okresie t=0 czyli w IV kwartale 2002 roku, teoretyczne zużycie energii wynosiło 2,99 MWh.
W drugim z analizowanych przykładów — przewozów ładunków — model wyglądał następująco:
ˆyt=0,38⋅t+25,13
co oznacza, że z kwartału na kwartał przewóz ładunków wzrastał średnio o 0,38 mln ton, natomiast w IV kwartale 2002 roku modelowa wartość przewozów ładunków wynosiła 25,13 mln ton.
Na podstawie wyznaczonych funkcji regresji można obliczyć wartości teoretyczne (ˆyt) zużycia energii oraz przewozów ładunków i pod postacią prostej przestawić na wykresie.
Otrzymane wartości wynikające z funkcji trendu (ˆyt) mają charakter liniowy i prawdę rzecz ujmując słabo dopasowują się do danych empirycznych. Współczynnik R2 w przykładzie pierwszym wynosi 41%, a w przykładzie drugim tylko 37%. Ponadto, jeśli chcielibyśmy prognozować na kolejne okresy to według funkcji trendu wartości zużycia energii dla kwartałów pierwszych byłyby przeszacowane, a dla kwartałów czwartych niedoszacowane. Stąd zachodzi potrzeba uwzględnienia w modelu występowania sezonowości, którą obserwujemy w danych.
Pierwszym krokiem jest identyfikacja rodzaju tej sezonowości. Może ona mieć charakter addytywny — wtedy wahania sezonowe są stałe w poszczególnych okresach (por. przykład 1) lub multiplikatywny, kiedy czynniki sezonowe są proporcjonalne do funkcji trendu (por. przykład 2). W zależności od zidentyfikowanego charakteru należy obliczyć wskaźniki sezonowości. W pierwszej kolejności rozważymy model addytywny.
6.2 Model addytywny
Analizę modelu addytywnego należy rozpocząć od wyznaczenia różnic pomiędzy wartościami empirycznymi (y) a modelowymi (ˆy) dla poszczególnych okresów zgodnie ze wzorem:
Sit=yt−ˆyt
Następnie dla każdego z analizowanych podokresów (półroczy, kwartałów, miesięcy) oblicza się surowe wskaźniki sezonowości uśredniając wyznaczone wcześniej różnice:
Si=m∑i=1Sitp
gdzie:
- m — liczba podokresów (półroczy, kwartałów, miesięcy),
- p — liczba analizowanych lat.
W analizowanym przez nas przykładzie musimy wyznaczyć surowe wskaźniki sezonowości dla każdego kwartału. Ponadto jeśli spełniona będzie zależność m∑i=1Si=0 to oznacza, że wskaźniki sezonowości są wolne od wahań przypadkowych. W praktyce jednak rzadko zdarza się taka sytuacja. W takim przypadku należy jeszcze wyznaczyć współczynnik korygujący zgodnie z wzorem:
k=m∑i=1Sim
a następnie skorygować surowe wskaźniki sezonowości według formuły
Soi=Si−k
otrzymując tzw. oczyszczone wskaźniki sezonowości, które informują o średnich odchyleniach od funkcji trendu w poszczególnych podokresach. Dla tych wskaźników zachodzi zależność: m∑i=1Soi=0. W przykładzie 1 oczyszczone wskaźniki sezonowości dla poszczególnych kwartałów są równe:
Wskaźnik | Wartość | Interpretacja |
---|---|---|
So1 | -0,62 | w pierwszych kwartałach lat 2003–2005 zużycie energii było mniejsze średnio o 0,62 MWh niż wynika to z funkcji trendu |
So2 | 0,33 | w drugich kwartałach lat 2003–2005 zużycie energii było większe średnio o 0,33 MWh niż wynika to z funkcji trendu |
So3 | -0,51 | w trzecich kwartałach lat 2003–2005 zużycie energii było mniejsze średnio o 0,51 MWh niż wynika to z funkcji trendu |
So4 | 0,81 | w czwartych kwartałach lat 2003–2005 zużycie energii było większe średnio o 0,81 MWh niż wynika to z funkcji trendu |
Suma | 0,00 | wskaźniki sezonowości są wolne od wahań przypadkowych |
Kolejnym etapem analizy jest wyznaczenie zmodyfikowanych wartości teoretycznych uwzględniających sezonowość. Te wartości oznaczane jako ˆy∗ uzyskujemy dodając do wartości teoretycznych (ˆy) odpowiednie dla poszczególnych podokresów oczyszczone wskaźniki sezonowości Soi. Formalny zapis jest następujący:
ˆy∗=ˆy+Soi
Wartości ˆy∗ przedstawione na wykresie już znacznie lepiej pasują do posiadanych danych empirycznych:

Zużycie energii - trend z sezonowością
Na podstawie tak zmodyfikowanego modelu można prognozować przyszłe wartości z dużo większą precyzją. Prognozowanie w modelu addytywnym polega na podstawieniu numeru okresu dla którego się prognozuje do funkcji trendu, a następnie dodanie odpowiedniego wskaźnika sezonowości:
ˆyPT=ˆy+Soi=a1⋅T+a0+Soi
Interesuje nas prognozowane zużycie energii w IV kwartale 2008 roku. Ten okres przyjmuje wartość t=24, natomiast wskaźnik sezonowości dla czwartego kwartału jest równy 0,81 MWh. Powyższe wartości podstawiamy do wzoru:
ˆyP24=0,15⋅24+2,99+0,81=7,4
co oznacza, że prognozowane zużycie energii w IV kwartale 2008 roku wyniesie 7,4 MWh.
6.3 Model multiplikatywny
W modelu multiplikatywnym zamiast różnic pomiędzy wartościami teoretycznymi a modelowymi oblicza się ich iloraz zgodnie ze wzorem:
Sit=ytˆyt
Następnie dla każdego z analizowanych podokresów (półroczy, kwartałów, miesięcy) oblicza się surowe wskaźniki sezonowości uśredniając wyznaczone wcześniej ilorazy:
Si=m∑i=1Sitp
gdzie:
- m — liczba podokresów (półroczy, kwartałów, miesięcy),
- p — liczba analizowanych lat.
W analizowanym przez nas przykładzie musimy wyznaczyć surowe wskaźniki sezonowości dla każdego kwartału. W przypadku sezonowości multiplikatywnej zależność oznaczająca, że wskaźniki sezonowości są wolne od wahań przypadkowych jest wyrażona następująco: m∑i=1Si=m. W praktyce jednak rzadko zdarza się taka sytuacja. W takim przypadku należy jeszcze wyznaczyć współczynnik korygujący zgodnie z wzorem:
k=m∑i=1Sim
a następnie skorygować surowe wskaźniki sezonowości według formuły
Soi=Si/k
otrzymując tzw. oczyszczone wskaźniki sezonowości, które informują o średnich odchyleniach od funkcji trendu w poszczególnych podokresach. Dla tych wskaźników zachodzi zależność: m∑i=1Soi=m. W przykładzie 2 oczyszczone wskaźniki sezonowości możemy zapisać w postaci procentowej i dla poszczególnych kwartałów są równe:
Wskaźnik | Wartość | Interpretacja |
---|---|---|
So1 | 96,5% | w pierwszych kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 3,5% niższe niż wynika to z funkcji trendu |
So2 | 100,1% | w drugich kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 0,1% wyższe niż wynika to z funkcji trendu |
So3 | 108,9% | w trzecich kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 8,9% wyższe niż wynika to z funkcji trendu |
So4 | 94,5% | w czwartych kwartałach lat 2003–2005 rzeczywiste przewozy były średnio o 5,5% niższe niż wynika to z funkcji trendu |
Suma | 400,00% | wskaźniki sezonowości są wolne od wahań przypadkowych |
Kolejnym etapem analizy jest wyznaczenie zmodyfikowanych wartości teoretycznych uwzględniających sezonowość. Te wartości oznaczane jako ˆy∗ uzyskujemy mnożąc wartości teoretyczne (ˆy) odpowiednie dla poszczególnych podokresów przez oczyszczone wskaźniki sezonowości Soi. Formalny zapis jest następujący:
ˆy∗=ˆy⋅Soi
Wartości ˆy∗ przedstawione na wykresie już znacznie lepiej pasują do posiadanych danych empirycznych:

Przewóz ładunków - trend z sezonowością
Na podstawie tak zmodyfikowanego modelu można prognozować przyszłe wartości z dużo większą precyzją. Prognozowanie w modelu multiplikatywnym polega na podstawieniu numeru okresu dla którego się prognozuje do funkcji trendu, a następnie przemnożenie przez odpowiedni wskaźnik sezonowości:
ˆyPT=ˆy⋅Soi=(a1⋅T+a0)⋅Soi
Interesuje nas prognozowane zużycie energii w III kwartale 2006 roku. Ten okres przyjmuje wartość t=15, natomiast wskaźnik sezonowości dla kwartału trzeciego jest równy 108,9%. Powyższe wartości podstawiamy do wzoru:
ˆyP15=(0,38⋅15+25,13)⋅108,9%=33,6
co oznacza, że prognozowane przewozy ładunków w III kwartale 2006 roku wyniosą 33,6 mln ton.
6.4 Ocena jakości
Ostatnim elementem analizy sezonowości jest ocena jakości otrzymanego modelu. W takim przypadku nie wyznaczamy współczynnika R2 ponieważ z definicji dotyczy on wyłącznie zależności liniowej. Główną miarą jakości będzie odchylenie standardowe składnika resztowego z uwzględnieniem sezonowości:
S∗u=√n∑t=1(yt−ˆy∗t)2n−2
Licznik odchylenia standardowego zawiera sumę kwadratów odchyleń wartości empirycznych (yt) od wartości modelowych z sezonowością (ˆy∗t). Nie ma już tutaj znaczenia czy model był addytywny czy multiplikatywny.
W przykładzie pierwszym S∗u wynosiło 0,16 MWh, co oznacza, że rzeczywiste zużycie energii różni się od zużycia teoretycznego wyznaczonego na podstawie szeregu czasowego średnio o +/- 0,16 MWh. Z kolei w przykładzie drugim S∗u wynosiło 0,74 mln ton, a co za tym idzie rzeczywiste przewozy różnią się od przewozów teoretycznych uzyskanych w oparciu o model szeregu czasowego średnio o +/- 0,74 mln ton.
6.5 Błąd prognozy
Wyliczona wartość S∗u niezbędna jest przy wyznaczaniu błędu prognozy zgodnie ze wzorem:
D(yPT)=S∗u√1+1n+(T−ˉt)2n∑t=1(t−ˉt)2
w którym uwzględniamy możliwość wzrostu tego błędu wraz z oddalaniem się od zakresu danych, które posiadamy.
Dla analizowanych przykładów otrzymano następujące błędy prognozy:
- przykład 1 — zużycie energii
Przy prognozie dla IV kwartału 2008 roku
D(yP24)=0,29
co oznacza, że prognozowane zużycie energii w IV kwartale 2008 roku wyniesie 7,4 +/- 0,29 MWh. - przykład 2 — przewóz ładunków
Przy prognozie dla III kwartału 2006 roku
D(yP24)=0,93
co oznacza, że prognozowane przewozy w III kwartale 2006 roku wyniosą 33,6 +/- 0,93 mln ton.
Na podstawie otrzymanych prognoz oraz ich błędów można wyznaczyć przedziały, w których spodziewamy się wartości rzeczywistej.