Problematischer Datensatz für Multiple Regressionsanalyse?

Alle Verfahren der Regressionanalyse.

Problematischer Datensatz für Multiple Regressionsanalyse?

Beitragvon Bueraner89 » Do 13. Apr 2023, 20:14

Guten Abend zusammen,

ich sitze gerade an meiner Masterarbeit und möchte die Einflussfaktoren bei der Kaderzusammenstellung für Erfolg von Fußballmannschaften messen.

Dafür habe ich einen Datensatz für die Bundesliga über drei Spielzeiten mit jedem einzelnen Spieler, der laut Transfermarkt in der jeweiligen Saison im Kader stand, erstellt.
Daraus ergeben sich über 1.800 Spieler. Die Spieler habe ich mit individuellen Variablen bestückt, wie z.B. Alter, Vereinszugehöhrigkeit, Marktwert. Aber auch mit Variablen die sich auf den Verein beziehen, wie z.B. Kadergröße, Fluktuation (Zu- und Abgänge kumuliert), Gesamtmarktwert, Transferbilanz. Diese Daten habe ich dann jedem Spieler der Mannschaft für die jeweilige Saison gleich zugefügt. Gleiches gilt für den Erfolg, nämlich die erzielten Punkte je Saison. Ggf. wichtig zu erwähnen: es gibt unterschiedliche Kadergrößen. Manche Kader haben nur 29 Spieler in der Saison, andere 40 Spieler.

Bei der multiplen Regressionsanalyse sollen nun alle Variablen auf ihren Einfluss auf den Erfolg analysiert werden. Im Ergebnis fällt auf, dass keine der individuellen Spieler-Variablen signifikant ist. Bei den Vereinsvariablen, z.B. Fluktuation, aber auch hoch signifikante Ergebnisse raus kommen. Und daher frage ich mich, ob ich individuelle Spieler-Variablen mit "Vereins-Variablen" in einen Topf werfen darf? Und ob es "logisch" ist, dass die Spieler-Variablen nicht signifikant sind?

Ich hoffe, ich konnte den Sachverhalt einigermaßen erläutern und freue mich auf eure Einschätzung.

Danke vorab und viele Grüße,

Jan
Zuletzt geändert von Bueraner89 am Fr 14. Apr 2023, 00:04, insgesamt 1-mal geändert.
Bueraner89
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 13. Apr 2023, 19:56
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Problematischer Datensatz für Multiple Regressionsanalys

Beitragvon PonderStibbons » Do 13. Apr 2023, 21:18

Aber auch mit Variablen die sich auf den Verein beziehen, wie z.B. Kadergröße, Fluktuation (Zu- und Abgänge kumuliert), Gesamtmarktwert, Transferbilanz. Diese Daten habe ich dann jedem Spieler der Mannschaft für die jeweilige Saison gleich zugefügt.

Das ist eine andere Ebene. Das geht eigentlich nicht.

Und Du charakterisierst den einzelnen Spieler damit anhand seiner Mitspieler (z.B. spiegelt der Gesamtmarktwert im Falle des kleinsten Kaders zu 96% die Qualität der anderen Spieler wieder [28/29]).

Und daher frage ich mich, ob ich individuelle Spieler-Variablen mit "Vereins-Variablen" in einen Topf werfen darf?

Nein. Du müsstest ein Mehrebenenmodell verwenden. In der ersten Ebene hast Du Spieler und ihre Merkmale.
In der zweiten Vereine und ihre Merkmale.

Und ob es "logisch" ist, dass die Spieler-Variablen nicht signifikant sind?

Die stecken momentan auch in der Vereinsebene, wo die Qualitäten der Spieler und ihr Erfolgsbeitrag "aggregiert" sind.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Bueraner89

Re: Problematischer Datensatz für Multiple Regressionsanalys

Beitragvon Bueraner89 » Fr 14. Apr 2023, 00:04

Hallo PonderStibbons,

das ist nicht die erhoffte Antwort, aber eine hilfreiche ;-) Besten Dank schon mal an dieser Stelle für das schnelle und qualitative Feedback.
Nun muss ich allerdings passen, denn ein "Mehrebenen-Modell" ist mir noch nie begegnet. Ganz naiv gefragt: Ist das easy oder deutlich aufwendiger als eine Multiple Regressionsanalyse?
Funktioniert das mit STATA?
Betrifft das Mehrebenen-Modell auch die deskriptive Statistik des Datensatzes und die Korrelationsanalyse? Oder ersetzt das Modell "nur" die Regressionsanalyse?
Vielleicht hast du ein, zwei Tipps für mich oder kannst mir Hinweise zu entsprechender Literatur geben, an der ich mich entlang hangeln kann?

Herzlichen Dank viele Grüße aus dem Ruhrgebiet ins Ruhrgebiet!
Bueraner89
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 13. Apr 2023, 19:56
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: Problematischer Datensatz für Multiple Regressionsanalys

Beitragvon PonderStibbons » Fr 14. Apr 2023, 00:39

Da kann man sich leider nicht hangeln (vermute ich - aber vielleicht hat dann doch wer eine Schritt-für-Schritt Anleitung für STATA verfasst).
Die Fragestellung ist komplex, die Daten sind komplex, und Dein Abnehmer hat nicht von vornherein gesagt, dass es so nicht geht. Letzteres
könnte darauf hindeuten, dass Dein Abnehmer Deine Ergebnisse so akzeptiert, wie sie sind. Musst Du ihn halt ins Boot holen.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 5 Gäste

cron