STATISTIK-FORUM.de

Miiira · von **Miiira** » Do 19. Mai 2022, 13:30

Hallo,

ich möchte aus einem Datensatz Predictions rechnen (20 mögliche X-Variablen, 1 Y-Variable, alles numerisch, 40 < n < 100). Es kann durchaus sein, dass bereits sehr wenige dieser 20 Variablen ausreichend sind um gute Predictions zu erzielen. Allerdings ist der Datensatz so zusammengesetzt, dass die X-Variablen teilweise stark miteinander korrellieren.
Daher hab ich Methoden wie PCR, PLS, Ridge, Lasso, glmnet (GLM with lasso or elasticnet regularization) gerechnet und Werte wie RMSE etc. verglichen (mittlerer RMSE je nach Methode zwischen 0.1 und 0.16, interessannter Weise schneidet ein normales lineares Modell jedoch auch sehr gut ab, wenn ich z.B. nur 3 X-Variablen zulasse - obwohl diese auch korrellieren!).

Jetzt kommt aber hinzu, dass ich erfahren habe, dass in meinem Datensatz jeder Patient doppelt vorkommt. Es wurde also pro Patient zweimal zu unterschiedlichen Zeitpunkten gemessen. Muss ich nun andere Modelle rechnen die die gepaarten Messungen der Patienten berücksichtigen? Da denke ich z.B. an Nonlinear Mixed-Effects Models. Aber können solche Modelle mit dem Problem der hohen Korrelation von X umgehen? Oder muss ich da vorher z.B. eine Variablen-Selektion machen?

Falls mein Problem für Mixed-Effects Models spricht, welche R packages könnt ihr empfehlen? regsubsets für die Feature Selection und danach nlme für Mixed-Effects Models oder kann regsubsets auch nicht mit dem Korrelationsproblem umgehen?

Andere Vorschläge (mit) was ich rechnen soll?

Danke für eure Hilfe!

PonderStibbons · von **PonderStibbons** » Do 19. Mai 2022, 13:37

Bitte einmal zusammenhängend die Studie beschreiben, also Thema, konkrete Fragestellungen, Erhebungsdesign, Stichprobengröße, erhobene Variablen.
Eine Angabe ich möchte aus einem Datensatz Predictions rechnen (20 mögliche X-Variablen, 1 Y-Variable, alles numerisch, 40 < n < 100). ist mir leider
weitgehend unverständlich, sowohl was das Ziel als auch was den Sachverhalt bei den Daten angeht.

Mit freundlichen Grüßen

PonderStibbons

Miiira · von **Miiira** » Do 19. Mai 2022, 14:07

Hallo, ich kann die Studie nicht viel genauer beschreiben da sie noch geheim bleiben soll! So viel kann ich aber noch sagen: Es handelt sich um verschiedene Messwerte aus dem Blut und soll versucht werden den einen Blutwert (Y) aus den anderen (X) zu prognostizieren. Ganz simpel, ohne Zeitverlauf etc. Einfach nur überprüfen ob man sich die eine Messung ersparen kann, wenn man sie aus den anderen schätzt. Die Werte (20 X-Variablen und 1 Y-Variable) werden alle aus der gleichen Blutprobe entnommen, es gibt also keinen Zeitfaktor zu berücksichtigen). Es sind zwischen 20 und 50 Patienten denen je zweimal Blut entnommen wurde. Daher Stichprobengröße 40 < n <100.
Grundsätzlich denke ich, dass derartige Auskunft reicht, da diese Auswertungen meines Wissens nach ohnehin immer nach dem gleichen Schema ablaufen, ganz egal was genau im Blut gemessen wurde... Somit hoffe ich, dass das nun reicht um Hilfe bezüglich Methoden- und Funktionen-Wahl in R zu bekommen. Danke :-)

bele · von **bele** » Do 19. Mai 2022, 14:47

Hallo Miiiira,

solche Geheimprojekte sind immer etwas schwierig für ein Forum, das seiner Natur nach ein öffentlicher Raum ist. Wir können das versuchen, aber ein bezahlter Statistikdienst, der auch eine Verschwiegenheitserklärung unterschreibt, kann da die bessere Wahl sein.
Mich würde als erstes interessieren, was das genaue Ziel der Regression ist. Geht es wirklich um den RMSE, also um die möglichst genaue Anpassung an das gemessene Y oder geht es darum, möglichst wenige Variablen für eine gute Vorhersage des Y zu erreichen oder geht es darum, einzelne der Prädiktoren auf Signifikanz zu untersuchen oder... Das beeinflusst die Wahl der Waffen schon ganz erheblich. Eine LASSO-Regression verringert die Zahl der Prädiktoren, gibt aber keine p-Werte aus. Ridge-Regression kommt mit sehr wenig Beobachtungen pro X-Variable aus, ist aber nicht geeignet, die Zahl der Prädiktoren klein zu halten. Wenn eine einfache lineare Regression mit vielen Pädiktoren bei wenig Beobachtungen gut abschneidet muss man unterscheiden: in-sample ist das keine Kunst, bei Trennung in Trainings- und Testdatensatz wäre es ein schönes, leicht zu interpretierendes Modell das man auch leicht mit random effects bereichern könnte.
Und was hat es mit diesen zwei Messungen auf sich? Liegen da zwölf Monate und eine Therapie dazwischen, dass sie fast shcon zwei unabhgängige Beobachtungen sein könnten oder sind die am gleichen Tag durch die gleiche Nadel aus der gleichen Vene entnommen worden und stellen einfach nur Doppelungen dar, und wenn ja, warum hat man sie dann genommen und werden für die Vorhersage auch wieder zwei Messungen oder wird da nur eine Messung zur Verfügung stehen??

Mindestens solltest Du aus meinem Text entnehmen können, dass noch ganz viele Informationen fehlen, um eine begründete Antwort zu liefern. Mindestens diese Antworten musst Du noch nachliefern, bis man Dir was raten kann und auch dann musst Du bei einem Geheimprojekt selbst die Verantwortung dafür übernehmen, ob man aus den allgemeinen Informationen, die Du im Netz gegeben hast, auf Dein konkretes reales Projekt schlussfolgern kann.

Darf man wenigstens fragen, ob es sich um eine Abschlussarbeit wie eine PRomotionsarbeit handelt oder um eine firmeninitiierte Anwendugnsbeobachtung oder ein genuines Forschungsprojekt?

LG,
Bernhard

PonderStibbons · von **PonderStibbons** » Do 19. Mai 2022, 17:06

Miiira hat geschrieben:Hallo, ich kann die Studie nicht viel genauer beschreiben da sie noch geheim bleiben soll!

Eine Geheimstudie. Na sowas.

Grundsätzlich denke ich, dass derartige Auskunft reicht, da diese Auswertungen meines Wissens nach ohnehin immer nach dem gleichen Schema ablaufen, ganz egal was genau im Blut gemessen wurde...

Was Du grundsätzlich annimmst, war eigentlich nicht die Frage, sondern welche konkreten Angaben
welche konkreten Vorschläge gestatten. Das ist für mich als Leser leider immer noch chaotisch. Aber
danke, dass Du mich aufklärst, wie das so läuft in der angewandten Statistik.

Mit freundlichen Grüßen

PonderStibbons

dutchie · von **dutchie** » Do 19. Mai 2022, 22:34

Hallo Miiira,

du merkst die wollen dich nur aushorchen, um diese Infos für sich selber auszuschlachten!

gruß
dutchie

folgende User möchten sich bei dutchie bedanken:
Miiira

Holgonaut · von **Holgonaut** » Fr 20. Mai 2022, 09:17

Hi all,

jetzt wollt ich doch glatt was schreiben, seh aber dann den blödsinnigen Kommentar von dutchie (hab vergeblich das erwartete Anzeichen von Humor/Ironie gesucht) und dann auch noch, dass sich Miira dafür auch noch bedankt. Also spar ich mir das. Ich denk mal, Bele und PonderStibbons haben auch Besseres zu tun.

Grüße
Holger

folgende User möchten sich bei Holgonaut bedanken:
bele, PonderStibbons

STATISTIK-FORUM.de

R: Messwiederhohlung und hoch korrellierende Variablen

R: Messwiederhohlung und hoch korrellierende Variablen

Re: R: Messwiederhohlung und hoch korrellierende Variablen

Re: R: Messwiederhohlung und hoch korrellierende Variablen

Re: R: Messwiederhohlung und hoch korrellierende Variablen

Re: R: Messwiederhohlung und hoch korrellierende Variablen

Re: R: Messwiederhohlung und hoch korrellierende Variablen

Re: R: Messwiederhohlung und hoch korrellierende Variablen

Wer ist online?