STATISTIK-FORUM.de

Svenson89 · von **Svenson89** » Do 27. Jun 2019, 19:01

Hallo liebes Forum,

vielleicht könnt ihr mir ja helfen, vielleicht funktioniert es auch garnicht so wie ich es mir vorstelle.

Ausgangssituation: Ich würde gerne bei mir im Praktikum eine Aussage treffen in wie weit es wahrscheinlich ist, dass bei einem Aufschlag von x% der Kunde das Projekt bei uns beauftragt. Vorab steht natúrlich die Frage ob man überhaupt ein Muster erkennen kann. Die oberflächliche Analyse anhand eines Histogrammes wurde abgeschlossen. Fazit: Der grösste Erfolg konnte anteilsmässig zwischen 20-30% Aufschlag erzielt werden. Jedoch wurde das Angebot in 70% der Fälle basierend auf Erfahrung auch nur in diesem Bereich angeboten. Der Anteil" Projekt nicht erhalten" ist anteilig sehr gross. Mein Gedanke: Wer sagt denn, dass die Spanne zwischen 20-30% wirklich am besten ist?

Ziel: Kann man eine Abhängigkeit feststellen und wie konstanz ist diese Abhängigkeit? Mir geht es nicht um die perfekte Lösung sondern um eventuelle Denkanstösse.

Die Arbeit erfolgt in Excel über die Datenanalyse. Dafür habe ich momentan 1650 Datensätze mit jeweils folgenden gefilterten Werten.

1. jeweiligen %DB Satz zB die Zahl 25 (für 25%)
2. Ob das Angebot erfolgreich war. Dies unterscheidet sich in den Gruppen a) erfolgreich, b) teilweise erfolgreich, c) nicht erfolgreich und d) nichts

Der jeweiligen Aussage habe ich dann einen metrischen Wert zugeordnet a) 1 b) 2 c) 3 4) rausgefiltert da hier kein DB Wert vorhanden ist (Angebot wurde nie zu Ende erstellt). Im Anschluss habe ich 2 Spalten aufgebaut. Spalte A) Db Werte Spalte B die metrischen Werte ob erfolgreich oder nicht.

x= unabhängige Variabel = Spalte B
y = abhängige Variabel = Spalte A

Meine Idee war hierbei die lineare Regression. Diese wende ich schon bei Aktienkursen an im Bereich Portfolio Erstellung an. Ziel hierbei: Beta und Korrelation um im Anschluss ein Portfolio zu basteln mit der grössten Rendite.

Die Regression habe ich jetzt auch bei der Fragestellung angewendet. Problem ist nur,dass ich mir nicht sicher bin ob die lineare Regression hier passt. Beim ersten Versuch zeigte der Residualplot ein Muster und der p-Value war extrem hoch.

Gibt es einen Ratschlag ob die Regression hierfür überhaupt geeignet ist? Habt ihr einen anderen Vorschlag?

Ich danke euch

bele · von **bele** » Fr 28. Jun 2019, 09:28

Svenson89 hat geschrieben:Hallo liebes Forum,

Hallo Svenson89,

ich finde Deinen Beitrag schwer verständlich und würde erstmal um eine nachvollziehbare Schilderung bitten. Vielleicht hilft das hier, sich in unsere Position zu versetzen, bevor Du das neu formulierst.

Aufschlag von x%

Aufschlag ist das Angebot/der Preis?

Vorab steht natúrlich die Frage ob man überhaupt ein Muster erkennen kann.

Was für ein Muster? Ob der Preis mit der Entscheidung für den Auftrag zu tun hat??

Der grösste Erfolg konnte anteilsmässig zwischen 20-30% Aufschlag erzielt werden. [...] Wer sagt denn, dass die Spanne zwischen 20-30% wirklich am besten ist?

Dem Anschein nach sagen das Deine Daten im ersten zitierten Satz??

Die Arbeit erfolgt in Excel

Wenn Du meinen obigen Link gelesen hast, ist das ok. Wenn nicht, bitte ich Dich, Mindestens Absatz 4 noch dazu zu lesen.

Dafür habe ich momentan 1650 Datensätze mit jeweils folgenden gefilterten Werten.

Was heißt hier gefilterte Werte? Gibt es außerdem auch noch ungefilterte Werte?

jeweiligen %DB Satz zB die Zahl 25

"AKüFi" steht für Abkürzungsfimmel. Wofür steht "%DB"? Ist eine übliche Abkürzung fpr Deutsche Bahn, Dezibel, Deutsche Bank, Dresdner Bank, Datenbank, Dienstbeschädigung, Dauerbelastung, Drehstrombrückenschaltung, Durchlassbereich und vieles mehr. Gehe ich recht in der Anwendung, dass es hier etwas mit der abhängigen Variablen zu tun hat?

2. Ob das Angebot erfolgreich war. Dies unterscheidet sich in den Gruppen a) erfolgreich, b) teilweise erfolgreich, c) nicht erfolgreich und d) nichts
Der jeweiligen Aussage habe ich dann einen metrischen Wert zugeordnet a) 1 b) 2 c) 3

Das dürfte ein wesentliche Fehler sein. Das impliziert, dass viermal "erfolgreich" genausoviel ist wie zweimal "teilweise erfolgreich" und einmal "nicht erfolgreich" genausoviel wie dreimal "erfolgreich". Das ist ziemlich sicher Quatsch.

Meine Idee war hierbei die lineare Regression.

Einfache lineare Regression ist falsch, wenn Du mir in meiner obigen Argumentation folgst, dass die dreistufige Antwortskala nicht metrisch ist und auch nicht einfach par ordre du mufti als metrisch erklärt werden kann. Selbst wenn Du sie als metrisch betrachten würdest, wovon ich nochmal heftig abrate, dann wäre bei einer Skala, die bei 1 anfängt und bei 3 endet und dazwischen fast keine Zwischenstufen hat die einfache lineare Regression unglücklich gewählt. Selbst dann solltest Du mindestens eine logistische Regression in Betracht ziehen.

Beim ersten Versuch zeigte der Residualplot ein Muster und der p-Value war extrem hoch.

Der wird immer ein Muster zeigen, wenn die Antwortvariable dreistufig ist. Ein hoher p-Wert entsteht, weil eine Gerade die gestufte Antwort schlecht abbilden kann.

Gibt es einen Ratschlag ob die Regression hierfür überhaupt geeignet ist? Habt ihr einen anderen Vorschlag?

Sind die ROC-Kurven (Receiver-Operator-Characteristic) und der Youden-Index ein Begriff? Man kann damit untersuchen, wie gut %DB zwischen zwei Stufen Deiner dreistufigen Zielvariable unterscheiden kann und wo man einen Cutoff für die Vorhersage ziehen könnte.

LG,
Bernhard

Svenson89 · von **Svenson89** » Fr 28. Jun 2019, 20:13

Hi Bernhard,

vielen Dank für deine ehrliche Rückmeldung auch zu dem Link. Ich versuche jetzt den Sachverhalt zu konkretisieren.

Datensätze/Gesamtpopulation (n): 1650
x (unabhängige Variabel): Der Verusch aus den ordinalen Ergebnissen 1.) erfolgreich, 2.) teilweise erfolgreich 3.) nicht erfolgreich, 4.)unvollständig, metrische Ergebnisse "zu basteln". So wie du schon sagtest 1,2,3,4
y (abhángige Variabel): prozentualer Deckungsbeitrag (%-DB). Deckungsbeitrag kommt aus der Wirtschaft Umsatzerlöse - variable Kosten = Deckungsbeitrag. Der Deckungsbeitrag sollte dabei die Fixkosten decken.

Wir nutzen den Deckungsbeitrag als Kalkulationsansatz. Dabei wird auf den Einkaufspreis eine prozentualer Aufschlag dazu gerechnet damit wir nicht verlustbringend verkaufen. Dabei stellt sich mir folgende Frage: Wäre es nicht gut zu wissen wenn es die Möglichkeit geben würde zu erkennen, welcher %DB statistisch gesehen am effizientesten ist? Also welcher zu 1.) erfolgreich führt.

Dafür wurde zuvor eine Häufigkeitsanalyse betrachtet. In 1650 Fällen wurde beispielhaft 1100 Mal das Angebot abgelehnt, 350 Mal angenommen, 150 Mal teilweise angenommen und in 150 Fällen war das Angebot unvollständig also es lag kein Deckungsbeitrag vor. In den 350 Fällen wo das Angebot angenommen wurde fiel laut Histogramm der Deckungsbeitrag zwischen 20-30%. Wenn man sich jedoch anguckt wie oft ein Deckunsgbeitrag mir der Spanne 20-30% angeboten wurde dann war das halt auch in 70% aller Fälle. Jetzt nur nach der Häufigkeit eines Erfolges zu gehen wäre somit doch eigentlich nicht ganz korrekt. Korrekt wäre für mich wenn ich sagen könnte, dass 1,2,3,4 zu jeweils einer 25% igen Häufigkeit angeboten woden wären?

Ziel: Welcher prozentuale Aufschlag ist nun wirklich am erfolgversprechendsten?

Wieso komme ich auf eine lineare Regression?
Meine Statistik Vorlesung liegt leider ein wenig zurück aber ich weiss, dass ich damit eine Korrelation bei einer Beta Steigerung sehen kann um schlussendlich zB. zu sagen, Aktie A zeigt eine Abhängigkeit in Form von Gleichheit, Antizykklus oder gar keine Ähnlichkeit nicht zum Vergleichsmakrt (zB. Dax, DWJ etc.)auf. Ich vergleiche hier in dem Aktienbeispiel Äpfel mit Äpfeln so wie, dass die Werte zwischen den Aktienkursen undendlich sind.

Du hast es schon angesprochen erstmal weisen meine ordinalen Ergebnisse zwischen den Werten keine Endlichkeit auf und natürlich wird mir im Residualplot dann auch ein Muster in Form von senkrechten Punktewolken angezeigt. Wo sollen die Auswertungen denn auch landen. Somit funktioneirt das Ganze wohlmöglich nicht.Die lineare Regression fällt somit sehr wahrscheinlich flach.

Die Roc- Kurve sieht auf dem ersten Blick interessant aus, ich traue mir das durchaus zu dies in Excel (hiervon bin ich leider abhängig. Ist aber auch keine wissenschaftliche Arbeit) umzusetzen. Würdest du nach der Erläuterung sagen, dass die ROC Kurve für mein Ziel anwendbar ist?

Kannst du ein Buch empfehlen, welches sttistische Anwednungbsreiche beinhaltet?

Ich danke dir.

Schönes Wochenende

STATISTIK-FORUM.de

Abhängigkeit feststellen - Praktikum Wirtschaft

Abhängigkeit feststellen - Praktikum Wirtschaft

Re: Abhängigkeit feststellen - Praktikum Wirtschaft

Re: Abhängigkeit feststellen - Praktikum Wirtschaft

Wer ist online?