Hallo ihr Statistik-Erfahrenen,
Im Rahmen einer Echtzeit-Zeitreihenanalyse soll ich sogenannte "Ausreißer" erkennen,
und ich hoffe dass ich mit eurer Hilfe dazu einen besseren Lösungsansatz finden kann.
Im Forum habe ich dazu nichts konkretes gefunden, daher beschreibe ich die Problemstellung mal direkt an einem Beispiel:
Man bekommt innerhalb eines festgelegten Zeitraums (z.B. zwischen 8 und 20 Uhr) nacheinander zu
verschiedenen Zeitpunkten und in unregelmäßigen Abständen Werte gleichen Typs für ein bestimmtes Wertpapier
(in unserem Beispiel die Anzahl des gehandelten Wertpapiers zum jeweiligen Zeitpunkt).
08:01:12 => 30 Stück
08:01:35 => 25 Stück
08:01:53 => 55 Stück
08:02:02 => 15 Stück
...
10:23:57 => 295 Stück (Ausreißer)
...
13:56:10 => 620 Stück (Ausreißer)
...
19:58:12 => 60 Stück
19:58:51 => 25 Stück
19:59:02 => 40 Stück
Nun sind einige Werte deutlich größer als der Durchschnitt, und genau diese Werte gilt es zu finden.
Mein momentaner Ansatz dazu ist der folgende:
1) Für jeden erhaltenen Wert "x" betrachte ich die Werte der letzten 10 Minuten
2) Berechne von diesen 10 Minuten bzgl. der Anzahl den arithmetischen Mittelwert & Standardabweichung
3) Falls: "erhaltener Wert" > (3xStandardabweichung + Mittelwert), dann ist dies ein Ausreißer
Offenbar ist diese Variante nicht so toll und es stellen sich folgende Fragen:
-Welche alternativen Verfahren gibt es zum Auffinden von Ausreißern in diskreten Zeitreihen?
-o.g. Variante geht nur bei Normalverteilung (was ja hier nicht gegeben ist)?
-Die Verwendung des Mittelwerts ist fraglich, da manche Transaktionen einzeln durchgeführt werden
(also anstatt eine große mit 50 Stück => 50 einzelne Trades mit jew. 1 Stück)
-Hypergeometrische/Bernoulli/Poissonverteilung verwenden, falls ja, wie?
-Evtl. mit dem Median zu lösen?
Ich hoffe ihr könnt mir weiterhelfen,
danke!