Vorgehen bei multipler RA mit Zeitreihen

Alle Verfahren der Regressionanalyse.

Vorgehen bei multipler RA mit Zeitreihen

Beitragvon imaquestionmark » Mi 4. Nov 2020, 17:12

Hallo zusammen,

ich beschäftige mich momentan mit einer Regressionsanalyse um den Umsatz eines Unternehmens in Abhängigkeit verschiedener externer Faktoren bestimmen zu können.

Die dazu vorhandenen Daten erstrecken sich über einen Zeitraum von 6 Jahren und wurden von mir zu Quartalswerten aufaddiert. Als unabhängige Variablen habe ich u.a. das Bruttoinlandsprodukt, Anzahl neu entwickelter Modelle innerhalb der Zielbranche, Lieferzeiten, Zulassungszahlen und Indizes zur Markt-/Wirtschaftsentwicklung.

Nun zu meiner ersten Frage:
Soweit ich das sehe/verstehe handelt es sich bei meiner abhängigen Variable um eine Zeitreihe. Dementsprechend ist die Annahme der Unabhängigkeit innerhalb einer Variable verletzt.
Lässt sich dies korrekt "beheben" indem ich SPSS diese Variable auf Autokorrelation prüfe und signifikante Lags als UV einfüge?

Frage Nr. 2:
Ich habe mir Dummyvariablen eingerichtet für die Quartale, da sich dort eine gewisse Saisonalität abzeichnet (bspw. dass Q3 immer am umsatzstärksten ist).
Kann ich diese trotz oder sogar wegen dem Vorliegen einer Zeitreihe ganz normal in meine Regressionsanalyse mit einbeziehen?

Frage Nr. 3:
Da ich teilweise mehr als unsinnige Ergebnisse erhalte, habe ich darüber nachgedacht einige Variablen zu transformieren. Speziell geht es mir dabei um solche wie Umsatz oder BIP, die Zahlenwerte enthalten und eine Zeitreihe sind.
Normalerweise würde ich sagen, dass ich durchaus fähig bin zu Googlen, jedoch konnte ich zu dieser vermeintlich einfachen Frage absolut keine Antwort finden: Macht es Sinn beispielsweise den Umsatz von "absoluten" €-Werten zu relativen, prozentualen Veränderungen zum Vorquartal zu transformieren? Wenn ja, worauf ist dabei zu achten? Sollte dies keinen nennenswerten Vorteil erbringen, hat sich das sowieso erledigt, da mir dadurch ein Quartal verloren gehen würde und ich sowieso schon zu wenig Beobachtungen habe.

Frage Nr. 4:
Bei vielen meiner Variablen lässt sich kein fester und genau definierter Zusammenhang von vorne herein bestimmen. Beispielsweise ist es nicht genau klar, wie sich das BIP auf den Umsatz auswirkt. Damit beziehe ich mich zum Einen auf den Zeitfaktor und zum Anderen auf die Art der Korrelation. Es kann mehrere Monate dauern, bis wir als Zulieferer die Auswirkungen zu spüren bekommen von einer positiven Wirtschaftsentwicklung und ob diese linear auf den Umsatz wirkt ist auch nicht sicher.
SPSS bietet mir hierzu die Kreuzkorrelation um Lead- und Lag-Effekte zu erkennen und die "Curve Estimation" um bspw. auf lineare, logarithmische oder exponentielle Korrelation zu prüfen.
Wie kann ich dies jedoch sinnvoll verwenden? Die Kreuzkorrelation scheint nur auf lineare Zusammenhänge zu prüfen - wenn also tatsächlich etwa ein exponentieller bestehen würde, wäre die Ausgabe irrelevant. Hierzu müsste ich dann erst die Variable transformieren, was jedoch heißen würde ich müsste vorher die Art der Korrelation bestimmen können. Wie kann man dies jedoch machen, wenn man nicht mal weiß ob ein direkter Zusammenhang besteht oder dieser um ein Jahr verschoben ist? Müsste ich dann jetzt z.B. die Lags 1-3 konstruieren und für jeden einzelnen die Curve Estimation laufen lassen?

Da es sich hier auch teilweise um Fragen direkt zu SPSS handelt wird dieser Beitrag im SPSS-Forum auch noch gepostet, also bitte nicht wundern.

Vielen Dank schon mal im Voraus!
imaquestionmark
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 4. Nov 2020, 16:47
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vorgehen bei multipler RA mit Zeitreihen

Beitragvon Holgonaut » Sa 7. Nov 2020, 10:37

Hi,
ich beschäftige mich seit einiger Zeit mit Zeitreihen mach aber nur langsam Fortschritte. Für mich als Psycho doch sehr ungewöhnliche Konzepte. Also nur meine naive Meinung.....


#1: Es ist üblich auf Autokorrelation zu testen. Wenn diese besteht, ja, kannst du lagged AR effects einbeziehen. BTW: Anstelle einer Zeitreihenanalyse kannst du auch ein generalisiertes additives Modell rechnen, was v.a. erlaubt, nicht-lineare Trends als Prädiktoren einzubeziehen. Du hast nichts darüber geschrieben, ob es einen trend gibt, wie der aussieht (linear / nicht-linear) und wie du ihn adressierst (über detrending oder Einfügen als Kontrollvariable)

#2: Wegen der seasons würde ich auch erst mal eine Dekomposition machen. Neben Quartalen könnte es noch andere seasons geben (Jahre?). Aber ja, Einfügen von seasons-dummies adressiert seasons

#3 kann ich nicht beantworten, weil das eher eine inhaltliche Frage an dich als Experten wäre. Wenn es unsinnige Ergebnisse gibt fragt sich erst mal warum....

#4 Fällt mir schwer zu verstehen. Fügst du eine X-Variable als Prädiktor ein, testest du den Xt --> Yt - Effekt. Wenn du lags vermutestet, würdest du das eben durch lagged-effects testen (z.B. Xt-1 --> Yt oder Xt-2 --> Yt). Ich hab letztens ein paper gelesen, da wurden systematisch verschiedene lags getestet. Eine Alternative erscheint mir derzeit, eine cointegration-Analyse zu machen. Ich hab da selbst noch nicht so viel verstanden, es scheint aber die Schätzung eines Trend-Trend-Effekts zu sein.

Das was du unter curve estimation beschreibst, scheint sich auf die o.g. trend-Frage zu fokussieren.

Ich weiß nich ob dir das hilft. Ich eier selbst rum :)

Grüße
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

folgende User möchten sich bei Holgonaut bedanken:
imaquestionmark

Re: Vorgehen bei multipler RA mit Zeitreihen

Beitragvon imaquestionmark » Mo 9. Nov 2020, 18:04

Vielen Dank schon mal für deine Antwort Holger!

Ich habe mittlerweile ein bisschen hier und da ausprobiert, recherchiert und angewendet. Somit bin ich aktuell soweit, dass ich eine Zeitreihenanalyse mittels ARIMA probiere. Hierbei adressiere ich die offensichtlich vorhandenen Lags über den AR-Term, welcher saisonal immer auf das Vorjahr schaut. Dies ist nach meiner Interpretation des Autokorrelationsgraphen auch der einzige relevante Lag.
Dank des "Expert Modeler" in SPSS werden alle möglichen Kombinationen und verschiedene Modelle zur Zeitreihenanalyse geprüft und das "beste" ausgegeben. Darüber werden also sowohl der genannte Lag als auch meine Prädiktoren und sogar deren Lags berücksichtigt.


1.: Ja, es gibt in meinem Beobachtungszeitraum einen negativen Trend, diesen wollte ich ursprünglich jedoch auf dafür relevante Variablen zurückführen. Beispielsweise sollten höhere Preise oder längere Lieferzeiten einen Umsatzrückgang verursachen können - jedoch fehlen mir entweder Daten zu diesen Variablen oder die vorhandenen weisen keinen passenden Zusammenhang auf. Den Trend würde ich übrigens als linear bezeichnen, jedoch ist dieser Zusammenhang nicht so stark, dass man das sofort sehen würde.

2.: Durch die Verwendung eines ARIMA-Modells dürfte sich das weitestgehend erledigt haben. Saisonalität über Jahre würde ich nicht vermuten, lässt sich mit meinem Zeitraum jedoch leider auch nicht be-/widerlegen.

3.: Hier würde ich mittlerweile vermuten, dass es wirklich an fehlenden Variablen liegt, da ich selbst mit den mir vorliegenden Daten den negativen Trend nicht begründen kann. Da Mathematik jedoch keine "eigene Logik" besitzt, sind die Ergebnisse einfach nicht aussagekräftig -ich versuche ja sozusagen eine Entwicklung mit nur einem Bruchteil der dafür verantwortlichen Daten herauszufinden.

4.: Das mit dem systematischen Testen auf Lags wäre wohl das, worauf ich hinaus möchte. Scheint mein Programm aber nicht herzugeben, also wird weiter alles einzeln überprüft.

Kennst du dich mit ARIMA-Modellen aus? Kannst du mir evtl. sagen wo bei dem von dir genannten GAM der Vorteil liegt? Zumindest über Google konnte ich jetzt nicht ganz nachvollziehen weshalb mir ein solches Modell besser helfen könnte... Generell habe ich dazu aber auch nicht all zu viel gefunden leider.
imaquestionmark
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 4. Nov 2020, 16:47
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vorgehen bei multipler RA mit Zeitreihen

Beitragvon Holgonaut » Di 10. Nov 2020, 09:08

Hi,

Ja, die automatische Auswahl des passenden ARIMA Modells ist normal.

#1 In einem ARIMA model ist aber auch ein detrending drin (das ist die zweite der drei Ziffern im Modell). D.h. das entfernt deinen Trend. Ziel ist es, dass nur noch random deviations um eine Nulllinie vorliegen. DIese kannst du dann mit "time-varying predictors" erklären--auch in mehreren lag-Varianten. Aber wie man die Trends zweier Variablen als lags tested, ist mir selbst noch ein Rätsel. Vielleicht versteh ich aber auch, dass dies vielleicht durch die X_t-1 --> Y_t Effekte getestet wird. Ich denk aber nicht. In eine SEM gibt es ja auch die Unterscheideung zwichen autoregressiven cross-lagged Effekten und slope-slope-Beziehungen in Growth curve Modellen.

#2 Du solltest auch in SPSS eine Dekomposition machen können (wenn nicht, wäre das echt ein Grund, in R umzusteigen. Schau dir mal Videos aus dem Tidyverse an, z.B. von Rob Hyndman). Eine Dekomposition zeigt dir, ob es seasons gibt und was ihre Einheit ist. Aber ja, ein ARIMA -modell entfernt die. Als Wissenschaftler finde ich sowohl das automatische detrending als auch de-seasoning hoch unbefriedigtend, weil ich ganz gerne die Effekte haben möchte, sowohl den Trend, die seasons als auch die Stärke der Autokorrelation.

#4: Ja, dass musst du durchtesten

Die Frage mit den GAMs ist tatsächlich schwer und beschäftigt mich selbst. Ein GAM zielt darauf ab, mit einigen smooth terms alle systematischen Komponenten zu adressieren. Du bekommst einen nicht-linearen Trend, seaonale Effekte und wenns nötig ist, kannst du auch nocht die AC-Struktur adressieren (entweder manuell durch lagged effects als auch (irgendwie) automatisch. Dann kannst du ebenfalls die time-varying predictors einfügen. Gerade bei stark nicht-linearen Trends halte ich ein GAM für Effektiver, da du bei einem Zeitreihenmodell dann doch wieder auf polynome zurückgreifen musst (Achtung, das ist alles meine Interpretation).
Was mich am meisten zur Zeit beschäftigt: Was machst du bei Strukturbrüchen? Da gibt es in der Zeitreihenforschung einiges--aber auch hier geht man meist von linearen Trends aus. Ein GAM auf der anderen Seite hat die Gefahr, dass es über einen Trend einfach "drüber-smoothed" und man dann den Bruch mit externen Variablen schlechter voraussagen kann.

Wo ein GAM einfach unschlagbar ist, sind nicht-lineare interaktionen. Schau dir das hier mal an:
https://petolau.github.io/Analyzing-dou ... -GAM-in-R/

Grüße und halt mich auf dem Laufenden!
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

folgende User möchten sich bei Holgonaut bedanken:
imaquestionmark

Re: Vorgehen bei multipler RA mit Zeitreihen

Beitragvon imaquestionmark » Di 10. Nov 2020, 11:52

Guten Morgen!

1.: Das interessante hierbei ist, dass der Expert-Modeler mir ohne Prädiktoren als "bestes" Model das Winter-Additives-Modell vorschlägt, anstatt eines ARIMA-Modells. Wenn ich nun Prädiktoren hinzufüge, muss auf ein ARIMA-Modell zurückgegriffen werden
-> Dieses hat dann im Vergleich zum Winter-Additives jedoch eine schlechtere Signifikanz und einen schlechteren Model Fit nach R^2 und MAPE. Darüber hinaus wählt der Modeler übrigens die von dir genannte Detrending-Variante, meinte zweite Ziffer ist also eine 1, das passt immerhin. Die Ergebnisse sind übrigens auch passend zu dem von dir in #2 genannten Dekompositionsverfahren. Das geht nämlich doch über SPSS, da musste ich nur etwas suchen.
Wenn ich die daraus erstellte Trendvariable nun überprüfe auf Linearität oder andere Zusammenhänge, bekomme ich ein R^2 von 0,39 für Linear jedoch sogar 0,76 und 0,89 für Quadratisch und Kubisch, was einfach durch die noch verbleibenden Schwankungen bedingt ist. Ansonsten gibt es die von mir genannten jährlichen Höhen und Tiefen zu beobachten - Die Dekomposition hat das also bestätigt und in dem ARIMA-Modell wird diese Saisonalität auch berücksichtigt.

Anhand dieser Ergebnisse wäre die logische Schlussfolgerung doch, dass die gewählten Prädiktoren alle keinen nennenswerten Beitrag zum Modell haben, oder? Da ein "einfaches" additives Modell die vorhandenen Werte besser erklärt als ein ARIMA-Modell mit passenden Detrending- und AR-Termen sowie den Prädiktoren, ist dies die für mich naheliegendste Vermutung.

Eine andere Möglichkeit ist natürlich die "Verfeinerung" meiner Prädiktoren. Ist es denn bspw. möglich, zwei Variablen zu kombinieren und zusätzlich als Prädiktor im Sinne eines Moderators bzw. einer Interaktion dann ganz normal in das ARIMA-Modell aufzunehmen?


Was das GA-Modell angeht, scheint es mir dem Artikel nach durchaus auch eine Möglichkeit zu sein, die ich ausprobieren sollte. Leider schaffe ich das nicht aufgrund einer nahenden Deadline - mich in das Thema einzulesen und in ein anderes Programm einzuarbeiten, welches diese Modelle unterstützt, dauert einfach zu lange.

Vielen Dank für die bisherigen Denkanstöße!
imaquestionmark
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 4. Nov 2020, 16:47
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vorgehen bei multipler RA mit Zeitreihen

Beitragvon Holgonaut » Di 10. Nov 2020, 20:43

Super, klingt alles plausibel und fundiert.

Was du mal probieren könntest. Die Residuen des reinen zeitreihenmodells mal extrahieren und in die Daten schreiben. Vielleicht kannst du mit einem scatterplot zwischen Deiner X-Variblen und den Residuen irgendwas erkennen. Auch der Effekt kann nicht linear sein...

Grüße
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts

folgende User möchten sich bei Holgonaut bedanken:
imaquestionmark

Re: Vorgehen bei multipler RA mit Zeitreihen

Beitragvon imaquestionmark » Mi 11. Nov 2020, 15:46

Hallo Holger,

was wäre denn anhand eines Zusammenhangs einer Variable und den Residuen zu erkennen? Ich habe probeweise mit ein paar Variablen einen Scatterplot erstellt, jedoch schien es dabei keine relevanten Korrelationen zu geben...

Das man anhand von Residuen das ein oder andere überprüfen kann, habe ich schon öfters gesehen, nur der Zusammenhang mit einer Variable erschließt sich mir nicht - glaube ich stehe da gerade auf'm Schlauch :?:
imaquestionmark
Grünschnabel
Grünschnabel
 
Beiträge: 4
Registriert: Mi 4. Nov 2020, 16:47
Danke gegeben: 3
Danke bekommen: 0 mal in 0 Post

Re: Vorgehen bei multipler RA mit Zeitreihen

Beitragvon Holgonaut » Do 12. Nov 2020, 12:11

Naja, jedwelche Struktur in den Residuen weist auf eine Misspezifikation hin. Ich könnte mir vorstellen, dass v.a. nicht lineare Effekte eines time-varying predictors in einem normalen VAR-Modell unentdeckt bleiben. Aber ich spekuliere nur.

Hier ist übrigens ein schöner Artikel, den ihc heute morgen gefunden hab über die Modellierung von Zeitreihen mit GAMs
https://opendatascience.com/time-series ... ve-models/

Grüße
Holger
Holgonaut
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 767
Registriert: Do 2. Jun 2011, 18:20
Danke gegeben: 3
Danke bekommen: 207 mal in 198 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste