Hallo liebes Forum,
vielleicht könnt ihr mir ja helfen, vielleicht funktioniert es auch garnicht so wie ich es mir vorstelle.
Ausgangssituation: Ich würde gerne bei mir im Praktikum eine Aussage treffen in wie weit es wahrscheinlich ist, dass bei einem Aufschlag von x% der Kunde das Projekt bei uns beauftragt. Vorab steht natúrlich die Frage ob man überhaupt ein Muster erkennen kann. Die oberflächliche Analyse anhand eines Histogrammes wurde abgeschlossen. Fazit: Der grösste Erfolg konnte anteilsmässig zwischen 20-30% Aufschlag erzielt werden. Jedoch wurde das Angebot in 70% der Fälle basierend auf Erfahrung auch nur in diesem Bereich angeboten. Der Anteil" Projekt nicht erhalten" ist anteilig sehr gross. Mein Gedanke: Wer sagt denn, dass die Spanne zwischen 20-30% wirklich am besten ist?
Ziel: Kann man eine Abhängigkeit feststellen und wie konstanz ist diese Abhängigkeit? Mir geht es nicht um die perfekte Lösung sondern um eventuelle Denkanstösse.
Die Arbeit erfolgt in Excel über die Datenanalyse. Dafür habe ich momentan 1650 Datensätze mit jeweils folgenden gefilterten Werten.
1. jeweiligen %DB Satz zB die Zahl 25 (für 25%)
2. Ob das Angebot erfolgreich war. Dies unterscheidet sich in den Gruppen a) erfolgreich, b) teilweise erfolgreich, c) nicht erfolgreich und d) nichts
Der jeweiligen Aussage habe ich dann einen metrischen Wert zugeordnet a) 1 b) 2 c) 3 4) rausgefiltert da hier kein DB Wert vorhanden ist (Angebot wurde nie zu Ende erstellt). Im Anschluss habe ich 2 Spalten aufgebaut. Spalte A) Db Werte Spalte B die metrischen Werte ob erfolgreich oder nicht.
x= unabhängige Variabel = Spalte B
y = abhängige Variabel = Spalte A
Meine Idee war hierbei die lineare Regression. Diese wende ich schon bei Aktienkursen an im Bereich Portfolio Erstellung an. Ziel hierbei: Beta und Korrelation um im Anschluss ein Portfolio zu basteln mit der grössten Rendite.
Die Regression habe ich jetzt auch bei der Fragestellung angewendet. Problem ist nur,dass ich mir nicht sicher bin ob die lineare Regression hier passt. Beim ersten Versuch zeigte der Residualplot ein Muster und der p-Value war extrem hoch.
Gibt es einen Ratschlag ob die Regression hierfür überhaupt geeignet ist? Habt ihr einen anderen Vorschlag?
Ich danke euch