Hi,
ich habe einige Fragen zur Modellierung einer Zeitreihe mit dem Random Forest-Algorithmus bei denen ich euren Rat gut gebrauchen kann. Ich habe eine Zeitreihe von Preisen sowie 5 Prädiktoren, aus denen ich eine Prognose für den jeweils nächsten Preis generieren möchte. Folgendes ist mir hierbei noch nicht ganz klar:
1. Ist bei der Anwendung des Random Forests die Implementierung eines Lags sinnvoll? D.h. ist es sinnvoll, in die Zeile jeder einzelnen Beobachtung der Trainingsdaten sowie des späteren Inputvektors die Prädiktorwerte der vorangegangenen 2 oder 3 Beobachtungen einzufügen?
2. Bei der abhängigen Variable handelt es sich um einen Preis, der teilweise Spitzenwerte annimmt die um ein Vielfaches oberhalb der „normalen“ Werte liegen. Ist es sinnvoll, die abhängige Variable bspw. mit dem Logarithmus zu transformieren? Wenn ja, wie beeinflusst dies das Random Forest-Modell / welchen Nutzen erfüllt es?
Vielen Dank für eure Unterstützung!
Paul