ich schreibe gerade meine Bachelorarbeit zum Thema Zeitreihenanalyse und Verbesserung von Prognosen mit statistischen Methoden. Dabei geht es darum, alternative Prognosemethoden zu finden, die (idealerweise natürlich) bessere Prognosen liefern, als die aktuellen Prognosen via Expertenbefragung.
Ich hatte selbstverständlich Statistik im aktuellen Bachelor-Studium, aber eben inhaltlich auch nur in dem entsprechenden Umfang. Darum hoffe ich, mir hier noch weitere Tipps, Anregungen und Hilfe zu meiner Arbeit holen zu können.
Kommen wir zu den Fakten.
Folgendes liegt vor:
Umsatz-Istdaten für
- ca. 50 Länder
- ca. 42 Zeitreihen (Ab 2010, evtl. auch früher (aktuell in Klärung)) je Land
und zusätzlich Prognosen für
- alle Länder, die auch Ist Daten haben
- ca. 30 Zeitreihen je Land (2010 monatliche Prognosen, später teilweise nur Prognose für letzten Monat/letzten zwei Monate pro Quartal (also z.B. Feb/Mrz;Mai/Jun;Aug/Sep etc.))
Diese Rohdaten liegen alle in Excel vor (allerdings verschiedene Dateien mit leicht abweichenden Formaten, daher aufbereitung nötig)
Zum geplanten Vorgehen:
Zunächst möchte ich natürlich die Ist-Daten mit den Prognosen (der Expertenbefragung) vergleichen und schauen, wie groß die Prognosefehler pro Land sind. Hierfür wollte ich z.B. auf Kennzahlen wie Mean squared error (MSE), Median absolute deviation (MAD) oder Mean absolute percentage error (MAPE) zurückgreifen und berechnen. Anschließend soll es eine kurze Einführung in Zeitreihen und Prognosen geben. Hier sollen Fragen behandelt werden wie, was ist überhaupt eine Zeitreihe, was für Arten von Zeitreihen gibt es (univariate, multivariate etc.) und auch was für Arten von Prognosen gibt es (quantitative und qualitative Verfahren) mit den jeweiligen Vor- und Nachteilen (allgemeiner Natur). Anschließend möchte ich 4 Verfahren detailliert erläutern:
- Gleitender Durchschnitt
- Exponentielle Glättung
- Lineare Regression
- Arima (Box-Jenkins)
Im Anschluss daran sollen diese 4 Verfahren auf einen Teil der Zeitreihe angewendet werden und anschließend das Verfahren, welches die besten Prognosen liefert, ausgewählt werden (auch hier mittels MSE/MAD bzw. MAPE). Dies soll anschließend auf den zweiten Teil der Zeitreihe angwendet und dadurch überprüft werden.
Das erst mal zum geplanten Vorgehen. Ist das aus eurer Sicht schlüssig oder seht ihr hier Probleme?
Jetzt zum praktischen Teil, hier hab ich noch einige offene Punkte/Fragen:
Für mich (als Nicht-Statistiker) sind das erstmal sehr viele Daten (mindestens 2100 Ist-Werte, zusätzlich ca. 1500 Prognosewerte und dann natürlich auch die Prognosewerte, welche ich dann über die statistischen Modelle erhalten werde) und ich frage mich, womit bearbeite ich diese Datenmasse am besten? Ich habe über die Universität z.B. die Möglichkeit SPSS 22 günstig zu erwerben (Campuslizenz). Ich habe allerdings noch nie mit dem Programm gearbeitet und müsste mich da wohl erst einarbeiten und die Rohdaten hier reinbekommen. Dann hatte ich überlegt, alles mit Excel zu machen (evtl. mit XLStat als Add-In; 30 Tage Demoversion), da mir zumindest Excel vertraut ist und die Rohdaten bereits in Excel vorliegen. Hier besteht aber natürlich die Gefahr, dass Formeln falsch eingegeben werden etc.
Die zetliche Komponente spielt hier dann auch eine große Rolle (nur noch ca. 6 Wochen Bearbeitungszeit)
Bevor ich jetzt mit weiteren Fragen komme, warte ich erstmal so eure Empfehlungen ab

Sofern ihr bis hierher durchgehalten habt, schon mal vielen Dank im Voraus alle Tipps

Beste Grüße
Stefan