Hallöchen zusammen,
ich habe hier ein statistisches Problem, für das ich einen Lösungsweg suche. Und zwar geht es um Folgendes:
Auf einer Internetseite gibt es eine Liste von Restaurants. Jedes dieser Restaurants hat eine Speisekarte. Nun soll ein Preisniveau für jedes Restaurant berechnet werden. Ziel ist es, dass die Restaurants untereinander vergleichbar sind anhand des Preisniveaus.
Auf den Speisekarten ist es oft so, dass es einige Speisen/Getränke gibt, die vom "gefühlten" Mittelwert abweichen. So kann es z.B. sein, dass eine Flasche Champagner für 80€ angeboten wird und damit aus dem preislichen Rahmen zu den restlichen Angeboten auf der Speisekarte fällt. Andere Restaurants haben auch ganz günstige Ausreißer wie z.B. eine kleine Vorspeise für 2€. Diese günstigen kleinen Vorspeisen sind in allen Restaurants jedoch häufiger/wahrscheinlicher anzutreffen als teure Dinge wie z.B. der Champagner und daher eigentlich keine "wahren" Ausreißer.
Ich habe mir nun überlegt, dass ich diese Ausreißer irgendwie herausfiltern muss um das Preisniveau zu berechnen. Habt ihr einen Ansatz, wie ich das am besten löse? Möchte die Ausreißer, aufgrund der Datenmenge, nicht manuell herausfischen sondern algorithmisch lösen.
Hatte mir überlegt die Speisekarte nach dem Preis der Speisen und Getränke zu sortieren und dann die ersten und letzten Werte herauszunehmen und danach den Mittelwert zu berechnen. Allerdings kann es sehr viele günstige Vorspeisen geben und auch ein paar Champagner-Flachen. Es ist also schwer zu sagen, wieviele Werte ich am Anfang und am Ende abschneiden soll. Denke da bin ich auf dem Holzweg. Habt ihr ne bessere Idee?
Nach Möglichkeit bitte keine Excel-Funktionen nutzen, da ich das ganze am Ende in PHP umsetzen muss. Reine Logik reicht also aus
Besten Dank für einen Tipp und Grüsse
Peter Pan