Anpassung des Datensatzes

Fragen, die sich auf kein spezielles Verfahren beziehen.

Anpassung des Datensatzes

Beitragvon mr.smb » Mi 20. Nov 2019, 17:27

Hallo liebe Statistik-Experten. Ich sitze gerade an meiner Bachelorarbeit und habe ein Problem mit meinem Datensatz, da ich in Statistik eine absolute Niete bin :roll:

Kurze Beschreibung der Aufgabe: Es geht um Umsteigeverbindungen im Luftverkehr. Dabei soll der Einfluss der Umsteigezeit auf die Buchungsmenge gegenüber dem Kaufpreis, der Gesamtreisedauer und des Marktanteils evaluiert werden.

Als Datensatz habe ich Buchungsdaten (für verschiedene Strecken aggregiert), bei dem eine Zeile einer Buchung entspricht und jede Variable eine Spalte darstellt, z.B.:
5 Passagiere / 500€ p.P / 3h Umsteigezeit / 15 h Gesamtreisedauer / 10% Marktanteil
2 Passagiere / 300€ p.P / 7h Umsteigezeit / 18 h Gesamtreisedauer / 30% Marktanteil usw.

Insgesamt gibt es 7255 Datenzeilen (Buchungen) mit 10500 Passagieren.

Am Ende möchte ich Gewichtungen der einzelnen Variablen erhalten, um sagen zu können, wie welche Variable die Buchungsmenge beeinflusst.

Meine simple Idee war, diese Datenzeilen in SPSS zu laden und eine lineare Regression laufen zu lassen, mit den Passagieren als abhängige Variable und dem Rest als Prädiktoren. Das hat natürlich nicht wirklich funktioniert, ich erhalte ein grandioses korrigiertes R-Quadrat = 0,004.

Wenn ich den Datensatz in Excel in einer Pivot so zusammenfasse, dass jeder unabhängige Variablenwert mit jedem anderen unabhängigen Variablenwert nur einmal auftaucht und die Summe der Passagiere zu diesen Datenzeilen gebildet wird, resultiert ein korrigiertes R-Quadrat = 0,007.
Ich habe noch versucht, die unabhängigen Variablen zu clustern. Das bringt zwar je nach Intervallgröße Verbesserungen, aber ist im Prinzip trial and error.


Meine Frage ist nun, ob jemand eine Idee hat, wie ich den Datensatz umforme, sodass ich durch irgendein Regressionsverfahren oder eine andere Methode ordentliche Gewichte erhalte.

Vielen Dank im Voraus und viele Grüße,
mr.smb :mrgreen:

PS: wenn das hier im falschen Forum ist, bitte verschieben.
mr.smb
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 20. Nov 2019, 16:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anpassung des Datensatzes

Beitragvon PonderStibbons » Mi 20. Nov 2019, 17:41

Insgesamt gibt es 7255 Datenzeilen (Buchungen) mit 10500 Passagieren.

Deinem Beispiel zufolge müsste die Zahl der Passagiere ein Mehrfaches der Zahl der Datenzeilen betragen.
Meine simple Idee war, diese Datenzeilen in SPSS zu laden und eine lineare Regression laufen zu lassen, mit den Passagieren als abhängige Variable und dem Rest als Prädiktoren. Das hat natürlich nicht wirklich funktioniert,

Wieso hat das "natürlich" nicht funktioniert, wieso war das zu erwarten? Und was meinst Du
mit "nicht wirklich"?
ich erhalte ein grandioses korrigiertes R-Quadrat = 0,004.

Klingt nach einem interessanten Resultat, aber Du scheinst es für fehlerhaft zu halten.
Meine Frage ist nun, ob jemand eine Idee hat, wie ich den Datensatz umforme, sodass ich durch irgendein Regressionsverfahren oder eine andere Methode ordentliche Gewichte erhalte.

Was ist an der Methode und/oder dem Ergebnis konkret zu beanstanden?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Anpassung des Datensatzes

Beitragvon mr.smb » Mi 20. Nov 2019, 17:56

Hi, danke schon mal für die schnelle Antwort.

Die geringe Anzahl an Passagieren liegt daran, dass jede Datenzeile genau eine Buchung darstellt. Pro Buchung werden 1 bis maximal 9 Passagiere gebucht, daher die geringe Zahl.

Es war in der Hinsicht zu erwarten, dass es zu einfach wäre ;)

Nun ja, ich halte es deshalb für fehlerhaft, weil ich gelernt habe, dass das R-Quadrat so hoch wie möglich sein soll und 0,004 für mich nicht wirklich hoch klingt. Zudem wird mir für die Gesamtreisedauer ein Regressionskoeffizient von 0,017 ausgegeben. Das würde bedeuten, dass mit steigender Reisedauer auch die Buchungsmenge steigt, was aus meiner Sicht keinen Sinn ergibt.

Zu beanstanden ist, dass ich aus meiner Sicht kein sinnvolles Ergebnis erhalte und daher denke, dass eine andere Methode wohl besser sein muss.

Viele Grüße,
mr.smb
mr.smb
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 20. Nov 2019, 16:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anpassung des Datensatzes

Beitragvon PonderStibbons » Mi 20. Nov 2019, 23:39

Die geringe Anzahl an Passagieren liegt daran, dass jede Datenzeile genau eine Buchung darstellt. Pro Buchung werden 1 bis maximal 9 Passagiere gebucht, daher die geringe Zahl.

Wenn in aller Regel die abhängige Variable (Zahl der Passagiere pro Buchung) nur den Wert 1 annimmt
(wofür 10.500 Passagiere bei 7255 Buchungen zu sprechen scheint), dann gibt es nicht sehr viel Varianz aufzuklären.

Nun ja, ich halte es deshalb für fehlerhaft, weil ich gelernt habe, dass das R-Quadrat so hoch wie möglich sein soll und 0,004 für mich nicht wirklich hoch klingt.

Ob es das generell soll, weiß ich nicht. 0,004 zeigt halt, dass die Prädiktoren nicht in der Lage sind,
die abhängige Variable zu erklären.

Zudem wird mir für die Gesamtreisedauer ein Regressionskoeffizient von 0,017 ausgegeben. Das würde bedeuten, dass mit steigender Reisedauer auch die Buchungsmenge steigt, was aus meiner Sicht keinen Sinn ergibt.

0,017 ist eher sowas wie Buchungsmenge und Reisedauer sind unabhängig voneinander.

Zu beanstanden ist, dass ich aus meiner Sicht kein sinnvolles Ergebnis erhalte und daher denke, dass eine andere Methode wohl besser sein muss.

Was ist daran nicht sinnvoll? Steht es von vornherein zweifelsfrei fest, dass eine oder mehrere dieser Prädiktoren
einen Vorhersagewert für Buchungsmenge pro Buchung haben müssten?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Anpassung des Datensatzes

Beitragvon mr.smb » Do 21. Nov 2019, 11:17

Das stimmt, daher suche ich ja nach einer Möglichkeit, die Daten so umzuformen, dass die Prädiktoren die abhängige Variable erklären können.

Aus meiner Sicht steht es zweifelsfrei fest, dass zumindest der Preis, die Umsteigezeit und die Reisedauer einen Einfluss auf die Kaufentscheidung und somit die Buchungsmenge haben.
Sonst könnte eine Fluggesellschaft ja irgendwelche Preise verlangen oder ewig lange Umsteigezeiten anbieten und trotzdem eine ausreichende Nachfrage generieren.

Viele Grüße,
mr.smb
mr.smb
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 20. Nov 2019, 16:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anpassung des Datensatzes

Beitragvon PonderStibbons » Do 21. Nov 2019, 13:45

Die Falldefinition und die abhängige Variable sind mir nicht klar.

Was ist eine "Buchung" (Zeile), bezieht sich das auf den Kauf eines
oder mehrerer Plätze durch eine Person (bzw. durch eine Instanz,
wie Firma etc.)?

Und dann willst Du vorhersagen, ob bei dieser "Buchung" 1, 2, 3 etc.
Plätze gekauft wurden (abhängige Variable)? Wäre das so der Fall,
dann würden ein unbrauchbares Modell nicht mehr so sehr verwundern,
weil damit nicht die Kaufentscheidung modelliert wird, sondern die
Größe der Reisegruppe. Aber vielleicht verhält es sich ganz anders
als ich annehme.

Anderer Aspekt, wie bereits vorher erwähnt: wie sieht die Verteilung
der abhängigen Variable aus (Häufigkeitstabelle für den Wert 1, 2, 3...)?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Anpassung des Datensatzes

Beitragvon mr.smb » Do 21. Nov 2019, 14:18

Genau, eine Buchung ist ein Kauf durch eine Person, z.B. ein Familienvater bucht 4 Sitzplätze für jeweils 300€ auf der Strecke Hamburg-München-Chicago. Die Gesamtreisedauer beträgt 15h, die Umsteigezeit 4h und der Marktanteil auf der Strecke Hamburg-X-Chicago ist 10%.

Daraus wird dann die Zeile: 4 / 300€ / 4h / 15h / 10%

Genau, ich möchte vorhersagen, wie viele Plätze unter diesen Rahmenbedingungen insgesamt gekauft werden.
Ah, okay, leuchtet mir ein.

Die Verteilung der abhängigen Variable ist wie folgt:
7255 Zeilen, davon 66,9% mit einem PAX (Passagier), 25,7% mit 2 PAX, 3,9% mit 3 PAX, 2,3% mit 4 PAX, 1% mit 5 PAX, 0,26% mit 6 PAX, 0,06% mit 7 PAX, 0,05% mit 8 PAX, 0,01% mit 9 PAX.

Viele Grüße,
mr.smb
mr.smb
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 20. Nov 2019, 16:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anpassung des Datensatzes

Beitragvon PonderStibbons » Do 21. Nov 2019, 14:56

Ja, es wäre ein Szenario dergestalt:
Es werden 100 günstige Angebote gemacht und 98mal führt das zu einer Buchung.
Es werden 1000 teure Angebote gemacht und 100mal führt das zu einer Buchung.
In Deinem Datensatz tauchen aber dann nur noch 98 günstige und 100 teure Buchungen auf.
Die nicht wahrgenommenen Angebote werden in der Studie nicht sichtbar, das Kaufverhalten
wird nicht vorhergesagt. Mit dieser Stichprobe sagst Du dann voraus, ob der Preis auf die
Zahl der Passagiere pro Buchung einen Einfluss hat. Man könnte argumentieren, dass wer
sich für/ gegen einen teuren Flug entschieden bzw. nicht entschieden hat, dabei auch
bereits berücksichtigt hat, wie viele Leute mitfliegen.

Du bräuchtest für Deine Analyse die nicht an den Mann gebrachten Angebote, AFAICS

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: Anpassung des Datensatzes

Beitragvon mr.smb » Do 21. Nov 2019, 16:23

Ok, ich verstehe. Allerdings habe ich leider keine anderen Daten.


Ich habe noch eine Variante probiert, bei dem ich den Datensatz in eine Pivottabelle packe und dann nur die Umsteigezeit und die Passagiere gegenüber stelle, sodass jeder Wert der Umsteigeverbindung nur einmal vorkommt und dazu die Summe aller Passagiere angezeigt wird.

Im Pivotchart ist dann ein sehr starker exponentieller Zusammenhang zu erkennen, mit einem R-Quadrat = 0,88. Die Regressionsgleichung ist y=580 * e^(-0,05x), ergibt also aus meiner Sicht Sinn.

Da ich ja den Einfluss der Umsteigezeit auf die Buchungsmenge unter Berücksichtigung der anderen Variablen ermitteln soll, war meine Idee, aus dem ursprünglichen Datensatz eine partielle Korrelation zu ermitteln, mit Umsteigezeit und Buchungsmenge als Variablen und dem Rest als Kontrollvariablen.
Wenn ich die obige Regressionsgleichung dann irgendwie mit dem erhaltenen Korrelationskoeffizienten anpassen kann, stellt das doch im Prinzip den Einfluss der Umsteigezeit unter Berücksichtigung der anderen Variablen dar.

Ist diese Methode möglich? Oder werden da verschiedene Sachen miteinander verknüpft, was gar nicht funktioniert?

Viele Grüße,
mr.smb
mr.smb
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Mi 20. Nov 2019, 16:44
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Anpassung des Datensatzes

Beitragvon PonderStibbons » Do 21. Nov 2019, 16:47

Leider kann ich da nicht folgen. Ich kenne das Thema und den Forschungskontext nicht und ich verstehe das Konzept der Studie nicht. Je länger die Umsteigezeit, desto weniger Personen reisen bei einer Buchung mit? Mag sein. Du solltest vielleicht auch mit dem Betreuer bzw. Abnehmer der Studie Rücksprache halten.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Nächste

Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 12 Gäste

cron