von bele » Fr 18. Jul 2014, 13:48
Ich könnte mir vorstellen, dass die Zusammenhänge in Deinen Daten hochgradig nicht-linear, ja teilweise nicht einmal stetig sind. Wer schon sehr lange nicht mehr gekauft hat, kauft vielleicht wo anders, wer gerade eben noch gekauft hat, hat vorläufig seinen Bedarf gedeckt, dazwischen wird sich die Wahrscheinlichkeit schon irgendwie komisch verteilen. Ähnlich wird es mit dem Kaufvolumen sein: Wer für viel Geld kauft, der hat auch Geld und kann weiteres kaufen. Oder er hat lange angespart und sich ein Lager angelegt und braucht deshalb lange nicht zu kaufen und die Kurve dazwischen muss keiner einfachen Verteilung folgen.
Unklare a priori-Thesen, große Zahl an Daten, hochgradig nicht-lineare Zusammenhänge: Ich würde es mit neuronalen Netzen (und zum Vergleich mit randomForests) versuchen. Die können sowas hinreichend flexibel abbilden und suchen sich selbst heraus, welche Prädiktoren passen.
Du wirst die Ergebnisse des ersten Jahres nehmen, um die des zweiten vorherzusagen. Mit den so gefundenen Parametern sagst Du Jahr 3 aus Jahr 2 voraus. Sobald Du genug Daten über das dritte Jahr hast, nimmst Du die Daten aus Jahr 1 und 2, modellierst damit die Verkäufe in Jahr 3 und verwendest dieses Modell für die Vorhersage in Jahr 4...
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)