Statistisches Vorgehen

Fragen, die sich auf kein spezielles Verfahren beziehen.

Statistisches Vorgehen

Beitragvon Viktor » Do 24. Sep 2020, 22:36

Hallo ihr Lieben,
falls dies der falschae Bereich ist, bitte verschieben!

Eine Nachfrage von einem Anfänger:

Ich habe bei einem Item (Punktewert 0-6) die Erhebung zu Baseline und Endpunkt (n=etwa 10.000), die sich bei jedem n zu Baseline/ Endpunkt anders gestalten/ verändern.
Ich habe eine hohe Anzahl an unabhängige Variablen
Gerne würde ich betrachten, wie die unabhängige Variablen die Veränderung der Items beeinflusst. Welche Methodik wäre dabei die erste Wahl?

Danke!!!
Viktor
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 16. Mai 2019, 01:37
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Statistisches Vorgehen

Beitragvon bele » Fr 25. Sep 2020, 06:45

Hallo Victor,

Bitte nimm Dir die Zeit, das Problem ausführlicher und konkreter zu beschreiben. Die Beratungsqualität hier im Forum steigt erfahrungsgemäß steil an, wenn man konkretisiert.

Wie hoch ist die hohe Zahl an Prädiktoren relativ zu den 10000? Geht es darum, ein besonders gut vorhersagendes Modell zu erstellen oder geht es darum, besonders einflussreiche Prädiktoren zu identifizieren oder geht es um die Signifikanz einzelner Prädiktoren oder um den Vergleich mit bestehenden Theorien zu Zusammenhänge?
Kommen alle 7 möglichen Punktwerte gleichmäßig vor oder sinc einzelne Stufen nur gering besetzt?

Wenn man viele Daten hat, hat man viele Optionen aber bekommt auch neue Probleme. Da kann man vieles in die Auswahl einfließen lassen.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5917
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts

Re: Statistisches Vorgehen

Beitragvon Viktor » Fr 25. Sep 2020, 09:51

Lieber Bernhard,

danke dir vielmals für die Rückmeldung. Gerne gebe ich weitere Informationen, die sich aufgrund des Ausschlusses einer Gruppe folgendermaßen geändert haben:

Insgesamt ist ca. n=2000

Verteilung von n bei Baseline ca.:
0=400; 1=70; 2=10; 3=450; 4=1200; 5=600; 6=100; 7=30; 8=20

Verteilung von n bei Outcome ca.
0=5; 1=60; 2=200; 3=550; 4=770; 5=280; 6=30; /=20; 8=10


Ich würde die unabhängigen Variablen gerne einmal in ca. 10 Gruppen zusammenfassen, wobei ich keine HIlfe bentöige, + einzeln mit den ca. 100 Variablen rechnen, falls letzteres zu viele sind, kann ich diese kürzen.


Es geht mir um die signifikanz einzelner Prädikroren, und wenn auch noch mmöglich, besonders einflussreiche Prädikoteren zu finden, und wenn auch möglich, ein vorhersagendes Modell zu haben, wobei letzteres eher sekundär ist / evtl. nicht möglich.

Soweit, bitte gerne weitere Fragen stellen, wenn etwas unklar ist.

Danke!

LG; Viktor
Viktor
Grünschnabel
Grünschnabel
 
Beiträge: 2
Registriert: Do 16. Mai 2019, 01:37
Danke gegeben: 0
Danke bekommen: 0 mal in 0 Post

Re: Statistisches Vorgehen

Beitragvon bele » Fr 25. Sep 2020, 15:06

Hallo Viktor,

von 10.000 auf 2.000 ist ein ärgerlicher Verlust, aber natürlich immer noch eine großzügige Datenbasis. Wenn das Modell nur an 10 Fällen den Schritt von Ergebnis 7 auf Ergebnis 8 lernen kann wird es darin eher ein grober Schätzer.

Unsicher bin ich, was "Variablen in 10 Gruppen zusammenfassen" heißt. Bedeutet das, dass wir eine Regression mit 10 Prädiktoren rechnen? Dann gibt es sicher viele richtige Antworten. Nachdem Holger Steinmetz hier kürzlich so viel Werbung für Generalisierte Additive Modelle (GAM) gemacht hat, habe ich mich dazu belesen und bin seither ganz begeistert. Demnach wäre mein erster Tipp ein ordinales GAM, das sich zum Beispiel mit R und dem Paket mgcv und den Funktionen gam oder bam mit der Familie ocat rechnen ließe ( https://stat.ethz.ch/R-manual/R-patched ... /ocat.html )

Das entspricht einer ordinalen Regression im generalisierten linearen Modell mit dem Unterschied, dass nicht zwingend lineare Zusammenhänge unterstellt werden, sondern durch Splines auch nichtlineare Zusammenhänge sehr flexibel abgebildet werden können. Dabei kann man für jeden Prädiktor angeben, wieviel Freiheitsgrade für ihn maximal zur Verfügung stehen. Voreinstellung ist k = 10, was meistens nicht ausgeschöpft wird. Bei einem Fallzahl-zu-Prädiktoren Verhältnis von 2000 zu 10 ist das wohl ok. Vorteil für Deinen Anwendungsfall: Es wird für jeden Prädiktor ein p-Wert ausgespuckt, wie Du das wolltest.

Was die hundert einzelnen Variablen angeht, sind das alles metrische Variablen die je nur einen Koeffizienten erfordern oder sind das auch nominale, die jeweils in viele Dummyvariablen zerfallen? Da Du die 100 Variablen in zehn Gruppen einteilen kannst besteht ein nicht unerhebliches Risiko von Kollinearität, was die Beurteilung von Signifikanz schwer macht. (Man kann wohl auch ordinale Ridge-Regression machen ... https://cran.r-project.org/web/packages ... nalNet.pdf ). Ich könnte mir vorstellen, dass man da einen randomForest berechnen lässt. Dabei werden ganz viele Klassifikationsbäume erstellt, für deren Erstellung aber jeweils nur ein Teil der verfügbaren Zeilen und Spalten im Datensatz verwendet wird. Wenn also zwei Prädiktoren miteinander korrellieren dann gibt es in dem randomForest immer auch Bäume, die je nur einen der beiden Prädiktoren berücksichtigen. p-Werte für die Signifikanz einzelner Prädiktoren werden vielleicht schwierig, aber eine Importance der verschiedenen Prädiktoren wird da wohl routinemäßig bestimmt und Signifikanz hättest Du dann ja aus dem anderen Modell geklärt.

Hoffe, dass das so Sinn macht und wie gesagt, das ist eine Meinung, es gibt bestimmt viele gute Möglichkeiten.

LG,
Bernhard
----
`Oh, you can't help that,' said the Cat: `we're all mad here. I'm mad. You're mad.'
`How do you know I'm mad?' said Alice.
`You must be,' said the Cat, `or you wouldn't have come here.'
(Lewis Carol, Alice in Wonderland)
bele
Schlaflos in Seattle
Schlaflos in Seattle
 
Beiträge: 5917
Registriert: Do 2. Jun 2011, 23:16
Danke gegeben: 16
Danke bekommen: 1399 mal in 1385 Posts


Zurück zu Allgemeine Fragen

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 5 Gäste

cron