Hallo,
im Zuge meiner Masterarbeit beschäftige ich mich mit der computergestützten Analyse von Verkaufsdaten.
Die vorhandenen Datensätze liefern mir Informationen, welches Produkt von welchem Händler an welchem Tag in welcher Häufigkeit verkauft wurde.
Zum Einstieg in meine Analyse, habe ich mich entschieden eine Anomalie-Erkennung zu implementieren. Aktuell gehe ich dazu folgendermaßen vor:
Ich filtere das Produkt heraus, welches ich analysieren möchte und gruppiere sie nach den einelnen Händlern, von welchen die Daten kommen.
Zur Erkennung der Anomalien habe ich zwei Methoden implementiert:
1) Eine Anomalie ist gegeben, wenn der Wert größer als der Durchschnitt + Standardabweichung * Faktor ist (oder kleiner, äquivalent mit Substraktion)
Der Durchschnitt wird immer in einem (rollenden) Fenster von X Werten berechnet, die Fenstergröße und der Faktor kann selbst gewählt werden.
2) Ist identisch zu 1), nur dass bei Standardabweichung ebenfalls nur das angegebene Fenster berücksichtigt wird, nicht wie in 1) die gesamte Datenmenge (des entsprechenden Händlers).
Anfangs habe ich als grundlegenden Wert für die Berechnungen die Anzahl der Verkäufe genommen. Da diese jedoch sehr abhängig von den einzelnen Händlern sind, habe ich die Änderungsrate berechnet und dem Datensatz hinzugefügt. (Also Änderung der Verkäufeanzahl in % zum vorhergehenden Tag).
Zufrieden bin ich mit den Resultaten aber immer noch nicht ganz. Wenn über mehrere Tage nur jeweils ein Stück verkauft wurde, dann aber auch mal für ein paar Tage 2, dann würde ich das eher als Zufall interpretieren, auch wenn die Änderung bei +100% liegt. Wenn die Verkaufszahlen von 100 auf 200 ansteigen, dann ist das sicher aussagekräftiger.
Ich suche daher nach Lösungsansätzen um eine gewisse Gewichtung in die Datennormalisierung zu bekommen (oder natürlich jede andere Lösungsidee).
Ihr müsst mir das hier natürlich nicht im Detail erklären. Ein paar Stichwörter oder Links wären aber klasse .
Beste Grüße,
flooow