Hallo liebe Statistik-Experten. Ich sitze gerade an meiner Bachelorarbeit und habe ein Problem mit meinem Datensatz, da ich in Statistik eine absolute Niete bin
Kurze Beschreibung der Aufgabe: Es geht um Umsteigeverbindungen im Luftverkehr. Dabei soll der Einfluss der Umsteigezeit auf die Buchungsmenge gegenüber dem Kaufpreis, der Gesamtreisedauer und des Marktanteils evaluiert werden.
Als Datensatz habe ich Buchungsdaten (für verschiedene Strecken aggregiert), bei dem eine Zeile einer Buchung entspricht und jede Variable eine Spalte darstellt, z.B.:
5 Passagiere / 500€ p.P / 3h Umsteigezeit / 15 h Gesamtreisedauer / 10% Marktanteil
2 Passagiere / 300€ p.P / 7h Umsteigezeit / 18 h Gesamtreisedauer / 30% Marktanteil usw.
Insgesamt gibt es 7255 Datenzeilen (Buchungen) mit 10500 Passagieren.
Am Ende möchte ich Gewichtungen der einzelnen Variablen erhalten, um sagen zu können, wie welche Variable die Buchungsmenge beeinflusst.
Meine simple Idee war, diese Datenzeilen in SPSS zu laden und eine lineare Regression laufen zu lassen, mit den Passagieren als abhängige Variable und dem Rest als Prädiktoren. Das hat natürlich nicht wirklich funktioniert, ich erhalte ein grandioses korrigiertes R-Quadrat = 0,004.
Wenn ich den Datensatz in Excel in einer Pivot so zusammenfasse, dass jeder unabhängige Variablenwert mit jedem anderen unabhängigen Variablenwert nur einmal auftaucht und die Summe der Passagiere zu diesen Datenzeilen gebildet wird, resultiert ein korrigiertes R-Quadrat = 0,007.
Ich habe noch versucht, die unabhängigen Variablen zu clustern. Das bringt zwar je nach Intervallgröße Verbesserungen, aber ist im Prinzip trial and error.
Meine Frage ist nun, ob jemand eine Idee hat, wie ich den Datensatz umforme, sodass ich durch irgendein Regressionsverfahren oder eine andere Methode ordentliche Gewichte erhalte.
Vielen Dank im Voraus und viele Grüße,
mr.smb
PS: wenn das hier im falschen Forum ist, bitte verschieben.