schnabidi

Alle Verfahren der Regressionanalyse.

schnabidi

Beitragvon Schnabidi » Fr 3. Nov 2023, 11:31

Hallo in die Gruppe von einem neuen Mitglied :),

Ich möchte eine retrospektive Analyse (1990-2010) von leistungsbezogenen Daten im Schwimmen und Laufen (Zeit in Sekunden für 400m Schwimmen und 1000m Laufen) von Sportlerinnen und Sportlern durchführen.
Ich habe einen Datenensatz mit n = 550, dieser wurden Aufgrund ihrer bis Dato (2023) maximal erreichten Wettkampfergebnisse in Erfolgreich (n=50), bzw. nicht erfolgreich (n=500) unterteilt.
Aufgrund der Mittelwerte (Schwimm und Laufzeiten), welche ich via deskriptiver Statistik ermittelt habe, lässt sich feststellen, dass die Gruppe der erfolgreichen schneller war. (kein Wunder)
Nun würde mich allerdings interessieren, wie sich die Schwimm und Laufzeiten gegenseitig beeinflussen um zu einem outcome erfolgreich zu führen. Ein großes Problem ist allerdings, dass die Stichprobe insgesamt 6 Altersklassen umfasst (10-15 Jahre) und die Zeiten natürlich mit dem älter werden der Probanden immer besser werden.

Meine Idee wäre eine binäre logistische Regression: AV = erfolgreich/nichterfolgreich, UV1 = Zeit Schwimmen UV2 = Zeit Laufen, UV3 = Alter
Bin mir allerdings sehr unsicher, wie und ob das Sinn macht. Hoffe es ist halbwegs Verständlich erklärt und vielleicht kann mir ja geholfen werden!
Freue mich auf eine Antwort unf schon mal Danke fürs lesen!

Grüße Schnautz
Schnabidi
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 2. Nov 2023, 12:45
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: schnabidi

Beitragvon PonderStibbons » Fr 3. Nov 2023, 11:40

Ich habe einen Datenensatz mit n = 550, dieser wurden Aufgrund ihrer bis Dato (2023) maximal erreichten Wettkampfergebnisse in Erfolgreich (n=50), bzw. nicht erfolgreich (n=500) unterteilt.

Ergibt das wirklich Sinn? Worin besteht der Zweck bzw. welche Fragestellung steckt dahinter?

Meine Idee wäre eine binäre logistische Regression: AV = erfolgreich/nichterfolgreich, UV1 = Zeit Schwimmen UV2 = Zeit Laufen, UV3 = Alter

Wenn jemand schnell schwimmt und schnell läuft, kategorisierst Du ihn in der Gruppe erfolgreich.
Dann rechnest Du ein Modell, in dem ermittelt wird, ob jemand der schnell schwimmt und schnell
läuft, in der Kategorie erfolgreich landet. Wozu?
Bin mir allerdings sehr unsicher, wie und ob das Sinn macht.

Mir ist wie gesagt nicht klar, wozu die ganze Studie dient, welche Fragestellungen beantwortet werden sollen.

Mit freundlichen Grüßen

Pondetibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

Re: schnabidi

Beitragvon Schnabidi » Fr 3. Nov 2023, 11:47

Von diesen 550 Personen wurden in ihrer Jugend Schwimm und Laufzeiten erhoben. Das diese erfolgreich, bzw. nicht nerfolgreich geworden sind wurde Jahre später via Datenbanken zu Wettkampfergebnissen auf internationaler Ebene ermittelt. Ich möchte nun mit dem vorhanden Datensatz untersuchen, ob sich da irgendwelche Auffälligkeiten finden lassen, die eine vorhersage (Talentidentifikation) ermöglichen.
Schnabidi
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 2. Nov 2023, 12:45
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: schnabidi

Beitragvon Schnabidi » Fr 3. Nov 2023, 11:50

Also die Wettkampfergebnisse haben nichts mit den Schwimm und Laufleistungen aus dem Datensatz zu tun. Es gibt durchaus auch Personen, die damals z.B gar nicht mal so schnell geschwommen sind, allerdings in ihrem späteren Leben Weltspitze.

Danke schon mal für die schnelle Antwort!

Viele Grüße
Schnautz
Schnabidi
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 2. Nov 2023, 12:45
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: schnabidi

Beitragvon PonderStibbons » Fr 3. Nov 2023, 12:19

Ach so, ich hatte es wegen " (kein Wunder)" anders aufgefasst.

Du kannst überlegen, nicht die absolute Leistung, sondern die Leistung relativ zur Altersgruppe als Prädiktoren zu verwenden,
d.h. z.B. nicht die Schwimmzeit eines 11jährgen, sondern Schwimmzeit relativ zum Durchschnitt der einbezogenen Elfjährigen.
Falls bekanntermaßen die Streuungen der Leistung von Altersstufe zu Altersstufe unterschiedlich ist, und dies berücksichtigt
werden soll, kannst Du zusätzlich überlegen, die Leistungen in jeder Altersstufe separat zu z-standardisieren.

Wie feinteilig sowas sein muss, weiß ich nicht. Vielleicht gibt es Stufen, in denen es bereits einen erheblichen Unterschied
ergibt, ob die Geburt im Februar oder November desselben Jahres war.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11368
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2504 mal in 2488 Posts

folgende User möchten sich bei PonderStibbons bedanken:
Schnabidi

Re: schnabidi

Beitragvon Schnabidi » Fr 3. Nov 2023, 13:32

Danke!

Wie würdest du die Einteilung der absoluten Leistung hin zur relativen Leistung in Spss vollziehen? Ich hatte auch schon überlegt die Leistungs jeder Alterklasse anhand des Mittelwerts oder Perzentile via Transformieren zu klassieren.
Schnabidi
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 2. Nov 2023, 12:45
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: schnabidi

Beitragvon bele » Fr 3. Nov 2023, 17:03

Hallo schnabidi,

Du schreibst, dass Du 550 Personen als Datenbasis hast. Das ist schonmal nicht schlecht. Was ich noch nicht verstanden habe: Kannst Du sicherstellen, dass jede Person nur einmal vorkommt? Was machst Du denn mit erfolgreichen Sportlern, die sowohl mit 11 als auch mit 15 Jahren schon einmal gemessen wurden?

Wenn alle Altersgruppen gleich oft besetzt sind, dann hast Du 550 Personen geteilt durch 6 Altersklassen und damit fast 100 Personen pro Altersklasse. Wenn das wirklich so ist, kannst Du die Schwimm- und Laufzeiten innerhalb der Altersklassen zu z-Werten skalieren (weiß nicht, wie das in SPSS geht, aber es geht bestimmt). Diese z-Werte sollten dann untereinander vergleichbar sein. Du solltest Dir aber vorher die Altersgruppen unbedingt auszählen lassen um auszuschließen, dass eine Altersgruppe nur sehr selten vertreten ist.

Bedenke bitte, dass für Deine logistische Regression die Aussagekraft von den 50 Erfolgreichen, nicht von den 500 Nicht-Erfolgreichen kommt. Nach einer Daumenregel solltest Du Dich auf vielleicht drei Prädiktoren beschränken.

Meine Idee wäre eine binäre logistische Regression: AV = erfolgreich/nichterfolgreich, UV1 = Zeit Schwimmen UV2 = Zeit Laufen, UV3 = Alter


Ob man Alter dann noch braucht, wenn Zeit Schwimmen und Zeit Laufen jeweils z-Standardisiert sind, darüber solltest Du nochmal nachdenken. Ich würde aber auf jeden Fall gerne noch die Interaktion, also das Produkt aus UV1 mal UV2 mit hineinnehmen. Vielleicht ist der entscheidende Prädiktor ja, ob man sowohl im Schwimmen als auch im Laufen schnell war. Mein Problem damit: Wenn UV1 und UV2 z-Scores sind, dann wird das Produkt positiv, wenn beide z.Scores negativ sind. Da habe ich jetzt auf die Schnelle noch keine gute Antwort, wie man das umgeht.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts

Re: schnabidi

Beitragvon Schnabidi » Mo 6. Nov 2023, 12:54

Hallo Bernhard,

Danke für deine schnelle Hilfe! Hat so alles super funktioniert! Meine Idee war, für die jeweilige Altersklasse sowohl die 400m schwimm-, als auch die 1000m laufzeiten visuell anhand der Perzentile zu klassieren! Das geht mit SPSS relativ einfach. Würde dann eine einteilung von 1 - 10 vornehmen, wobei 1 die schnellsten und 10 die langsamsten sind. Damit wäre doch das Produkt der UV1 und UV2 immer positiv und somit wäre die Interaktion beider UVs, anhand des Produkts zu untersuchen.

Viele Grüße
Schnabidi
Schnabidi
Grünschnabel
Grünschnabel
 
Beiträge: 6
Registriert: Do 2. Nov 2023, 12:45
Danke gegeben: 1
Danke bekommen: 0 mal in 0 Post

Re: schnabidi

Beitragvon bele » Mo 6. Nov 2023, 13:41

Hallo Schnabidi,

Schnabidi hat geschrieben: Meine Idee war, für die jeweilige Altersklasse sowohl die 400m schwimm-, als auch die 1000m laufzeiten visuell anhand der Perzentile zu klassieren!


Ehrlich gesagt verstehe ich das Wort visuell darin nicht, denn SPSS kann bestimmt Perzentilen errechnen ohne dass Du hinguckst und das Wort "klassieren" gefällt mir hier gar nicht, aber wahrscheinlich ist das nur ein Missverständnis.

Damit wäre doch das Produkt der UV1 und UV2 immer positiv und somit wäre die Interaktion beider UVs, anhand des Produkts zu untersuchen.


Ja, wahrscheinlich ist das der einfachste Weg, das erfolgreich anzugehen.

Ich wünsche Dir Viel Erfolg damit,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5920
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1401 mal in 1387 Posts


Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 7 Gäste