Multiple Regression mit 34 Dummy-Variablen

Alle Verfahren der Regressionanalyse.

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon R_an » Mi 18. Jul 2018, 10:25

Anscheinend kann man sich international nicht so recht einigen, publizierte Cutoffs sind 3, 4 und 5. Zudem entspricht die Dichotomisierung nicht der eingangs skizzierten Fragestellung Zusammenhang zwischen den 34 Items und dem Belastungsthermometer-Wert .

Genau. Im Spital wo ich meine Daten herhaben wird der Cut-off Wert von 4 verwendet, weshalb ich mich auf diesen Wert stütze. :)

Was die Methodik angeht, könnte man sich eventuell von den Referenzstudien leiten lassen
https://www.ncbi.nlm.nih.gov/pubmed/25315367
https://www.ncbi.nlm.nih.gov/pubmed/27260016


Ich bin (unter anderem) auf dieselben Texte gestossen. Durch den ersten Text ("An analysis of the distress thermometer problem list and distress in patients with cancer.") bin ich auf die Idee gekommen, eine logistische Regression zu rechnen. Jedoch wird mir leider aus dem Text das genau Vorgehen nicht wirklich klar: für mich sieht es so aus, als wurde von Anfang an ein Modell mit allen Items als UV's gerechnet (wohl per Einschlussmethode?) - oder sehe ich das falsch?

Lg Anna
R_an
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Do 22. Feb 2018, 09:52
Danke gegeben: 11
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon PonderStibbons » Mi 18. Jul 2018, 11:04

für mich sieht es so aus, als wurde von Anfang an ein Modell mit allen Items als UV's gerechnet (wohl per Einschlussmethode?) - oder sehe ich das falsch?

Weiß ich leider nicht, ich hab es nicht gelesen. Wäre aber die naheliegende Option.
Lg

wtf

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
R_an

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon R_an » Mi 18. Jul 2018, 11:24

Weiß ich leider nicht, ich hab es nicht gelesen. Wäre aber die naheliegende Option.


Könnte man nicht auch die einzelnen 5 Problembereiche blockweise (per Einschluss) nacheinander in die Regression aufnehmen, um differenzierte Aussagen machen zu können bzw. zu einem finalen Modell ohne (eventuell) "nicht signifikante Problembereiche" zu kommen?

wtf


Liebe Grüsse
R_an
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Do 22. Feb 2018, 09:52
Danke gegeben: 11
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon PonderStibbons » Mi 18. Jul 2018, 12:00

Könnte man nicht auch die einzelnen 5 Problembereiche blockweise (per Einschluss) nacheinander in die Regression aufnehmen,

Sicher könnte man. Man hätte dafür 120 verschiedene Möglichkeiten (Reihenfolgen der 5 Blöcke).
um differenzierte Aussagen machen zu können bzw. zu einem finalen Modell ohne (eventuell) "nicht signifikante Problembereiche" zu kommen?

Das erste verstehe ich nicht, das zweite erfordert keine schrittweise Analyse.

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
R_an

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon R_an » Mi 18. Jul 2018, 14:10

PonderStibbons hat geschrieben:
Könnte man nicht auch die einzelnen 5 Problembereiche blockweise (per Einschluss) nacheinander in die Regression aufnehmen,

Sicher könnte man. Man hätte dafür 120 verschiedene Möglichkeiten (Reihenfolgen der 5 Blöcke).
um differenzierte Aussagen machen zu können bzw. zu einem finalen Modell ohne (eventuell) "nicht signifikante Problembereiche" zu kommen?

Das erste verstehe ich nicht, das zweite erfordert keine schrittweise Analyse.


1. Ok. Es würde demnach Sinn machen, eine logistische Regression zu rechnen und direkt alle 34 UV's per Einschlussmethode rein zu nehmen? Also verstehe ich das richtig, dass ich nur ein Regressionsmodell mit allen Items rechnen muss und dann schaue, welche der Items darin signifikant sind und diese dann so interpretieren, dass diese Items das Risiko an sigifikantem Distress (bzw. Belastungswert üer dem Cut-off Wert) zu leiden, um die Wahrscheinlichkeit XX (Odds Ratio) erhöhen?

2. Wie kann ich in einer logistischen Regression denn Kontrollvariablen wie beispielsweise das Alter reinnehmen?

Vielen, vielen Dank! :)
R_an
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Do 22. Feb 2018, 09:52
Danke gegeben: 11
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon PonderStibbons » Mi 18. Jul 2018, 14:49

1. Ok. Es würde demnach Sinn machen, eine logistische Regression zu rechnen und direkt alle 34 UV's per Einschlussmethode rein zu nehmen?

M.E. weder eine logistische, noch 34 Prädiktoren. Aber man kann es ja mal versuchen, haben andere anscheinend auch schon. Außerdem ist das doch eine müßige Frage; die Vorgabe war ja mein Betreuer möchte nun, dass ich durch ein Regression zu einer Gewichtung der einzelnen Items kommen kann.
Also verstehe ich das richtig, dass ich nur ein Regressionsmodell mit allen Items rechnen muss und dann schaue, welche der Items darin signifikant sind und diese dann so interpretieren, dass diese Items das Risiko an sigifikantem Distress (bzw. Belastungswert üer dem Cut-off Wert) zu leiden, um die Wahrscheinlichkeit XX (Odds Ratio) erhöhen?

In Anwesenheit der übrigen Items. Wenn Items hoch überlappen, dann hat man ein Interpretationsproblem. Aber wie gesagt, die Vorgabe steht ja bereits.
Wie kann ich in einer logistischen Regression denn Kontrollvariablen wie beispielsweise das Alter reinnehmen?

Das sind Prädiktoren. Oder was soll die Frage bedeuten?

Mit freundlichen Grüßen

PonderStibbons
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
R_an

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon R_an » Do 19. Jul 2018, 08:39

PonderStibbons hat geschrieben:
1. Ok. Es würde demnach Sinn machen, eine logistische Regression zu rechnen und direkt alle 34 UV's per Einschlussmethode rein zu nehmen?

M.E. weder eine logistische, noch 34 Prädiktoren. Aber man kann es ja mal versuchen, haben andere anscheinend auch schon. Außerdem ist das doch eine müßige Frage; die Vorgabe war ja mein Betreuer möchte nun, dass ich durch ein Regression zu einer Gewichtung der einzelnen Items kommen kann.
Also verstehe ich das richtig, dass ich nur ein Regressionsmodell mit allen Items rechnen muss und dann schaue, welche der Items darin signifikant sind und diese dann so interpretieren, dass diese Items das Risiko an sigifikantem Distress (bzw. Belastungswert üer dem Cut-off Wert) zu leiden, um die Wahrscheinlichkeit XX (Odds Ratio) erhöhen?

In Anwesenheit der übrigen Items. Wenn Items hoch überlappen, dann hat man ein Interpretationsproblem. Aber wie gesagt, die Vorgabe steht ja bereits.
Wie kann ich in einer logistischen Regression denn Kontrollvariablen wie beispielsweise das Alter reinnehmen?

Das sind Prädiktoren. Oder was soll die Frage bedeuten?


Nun ja, ich sehe dass es nicht der optimale Weg ist. Leider fehlt mir die Zeit so wie die statistischen Kenntnisse, um jetzt gross noch was Anderes zu machen. Daher möchte ich mich gerne an die Vorgehensweise des Artikel halten, in dem ebenfalls eine logistische Regression gerechnet wurde, damit ich wenigstens begründen kann, warum ich dieses Vorgehen gewählt habe bzw. eine Quelle habe um mein Vorgehen zu "zitieren" Dazu stehen mir folgende Angaben zur Verfügung:

"Lastly, we constructed multiple logistic regression models of all thermometer items to determine how much variance in distress was predicted by all the items on the instrument. We then report items that are significantly associated with being in the at-risk group. For allanalyses, statistical significance was assessed as a type 1 error rate less 5 %. Both Cox and Snell R-Square and Nagelkerke R-Square are reported for the logistic regression analysis."

"A logistic regression model was created to predict risk status (i.e., score of 0–3 denoting low risk or 4–10 denoting at risk on the overall distress rating). This model contained all of the problem list items as well as age and marital status as control variables. The results of the logistic Regression indicated that those who were at risk for high distress were more likely to endorse the following problems: financial (odd ratio (OR) 2.50, 95 % confidence interval (CI) 1.45–4.32, p=.001), nervousness (OR 1.76, 95 % CI 1.03–3.01, p=.03), worry (OR 5.57, 95 % CI 3.38– 9.19, p<.001), getting around (OR 3.54, 95 % CI 1.68– 7.47, p=.001), and sleep (OR 1.90, 95 % CI 1.1 –3.05, p=.01). In addition, the model accounted for 32.8 % (Cox and Snell) to 49.8 % (Nagelkerke) of the variance in distress status (Table 3)."

Dazu habe ich noch folgende Fragen:
1. Warum ist im ersten Abschnitt die Rede von "Regression models", also mehreren Modellen? Rechne ich nicht nur ein logistisches Modell mit allen Prädiktoren (die ich per Einschluss reinnehme)?
2. "model contained all of the problem list items as well as age and marital status as control variables" - kann ich das Alter als 35igsten Prädiktor reinnehmen und dann gilt es als Kontrollvariable? Oder wie interpretiere ich die einzelnen Odds Ratio der Items? Sind diese abhängig von den anderen Items?

Danke und liebe Grüsse :)
R_an
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Do 22. Feb 2018, 09:52
Danke gegeben: 11
Danke bekommen: 0 mal in 0 Post

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon PonderStibbons » Do 19. Jul 2018, 09:03

1. Warum ist im ersten Abschnitt die Rede von "Regression models", also mehreren Modellen? Rechne ich nicht nur ein logistisches Modell mit allen Prädiktoren (die ich per Einschluss reinnehme)?

Das müsste im Artikel stehen. Dem Rest der Ausführungen zufolge war es nur 1 Modell.
2. "model contained all of the problem list items as well as age and marital status as control variables" - kann ich das Alter als 35igsten Prädiktor reinnehmen und dann gilt es als Kontrollvariable?

Das ist einfach die Deklaration eines Prädiktors (hier: "Alter") als "Kontrolllvariable" durch den Untersucher
Oder wie interpretiere ich die einzelnen Odds Ratio der Items? Sind diese abhängig von den anderen Items?

Wenn Prädiktoren korrelieren, dann hängt das Gewicht eines Prädiktors mit davon ab, ob die mit ihm korrelierten anderen Prädiktoren im Modell sind oder nicht. Aber was das für die Interpretation bedeutet, damit haben sich die Autoren nicht belastet und wird sich Dein Betreuer anscheinend auch nicht. Insofern alles gut.
PonderStibbons
Foren-Unterstützer
Foren-Unterstützer
 
Beiträge: 11364
Registriert: Sa 4. Jun 2011, 15:04
Wohnort: Ruhrgebiet
Danke gegeben: 51
Danke bekommen: 2503 mal in 2487 Posts

folgende User möchten sich bei PonderStibbons bedanken:
R_an

Re: Multiple Regression mit 34 Dummy-Variablen

Beitragvon R_an » Mo 23. Jul 2018, 11:52

PonderStibbons hat geschrieben:
1. Warum ist im ersten Abschnitt die Rede von "Regression models", also mehreren Modellen? Rechne ich nicht nur ein logistisches Modell mit allen Prädiktoren (die ich per Einschluss reinnehme)?

Das müsste im Artikel stehen. Dem Rest der Ausführungen zufolge war es nur 1 Modell.
2. "model contained all of the problem list items as well as age and marital status as control variables" - kann ich das Alter als 35igsten Prädiktor reinnehmen und dann gilt es als Kontrollvariable?

Das ist einfach die Deklaration eines Prädiktors (hier: "Alter") als "Kontrolllvariable" durch den Untersucher
Oder wie interpretiere ich die einzelnen Odds Ratio der Items? Sind diese abhängig von den anderen Items?

Wenn Prädiktoren korrelieren, dann hängt das Gewicht eines Prädiktors mit davon ab, ob die mit ihm korrelierten anderen Prädiktoren im Modell sind oder nicht. Aber was das für die Interpretation bedeutet, damit haben sich die Autoren nicht belastet und wird sich Dein Betreuer anscheinend auch nicht. Insofern alles gut.


Ok, danke.
Für die logistische Regression bin ich auf folgende Voraussetzungen gestossen, auf ich in meiner Arbeit sicher eingehen muss im Methodenteil.

1. Die abhängige Variable ist binär (0-1-codiert)
2. Die unabhängigen Variablen sind metrisch oder im Falle kategorialer Variablen als Dummy-Variablen codiert.
3. Für jede Gruppe, die durch kategoriale Prädiktoren gebildet wird, ist n ≥ 25
4. Die unabhängigen Variablen sind untereinander nicht hoch korreliert

Zu Nr. 3: Dies ist bei mir nicht der Fall, falls ich es richtig verstanden habe. Es gibt in meinem Datensatz sicherlich 4,5 Items, die fast von allen Patienten verneint wurden und smot nicht nicht von mind. 25 Patienten zugestimmt worden sind (bei einem N von 500).. Was kann man da tun?
Zu Nr. 4: Wie kann diese Voraussetzung bei Dummy Variablen geprüft werden? Muss ich über alle Interkorrelationen der 34 Items ein Chi-Quadrat Test rechnen?
R_an
Beobachter
Beobachter
 
Beiträge: 15
Registriert: Do 22. Feb 2018, 09:52
Danke gegeben: 11
Danke bekommen: 0 mal in 0 Post

Vorherige

Zurück zu Regressionanalyse

Wer ist online?

Mitglieder in diesem Forum: Google [Bot] und 1 Gast

cron