STATISTIK-FORUM.de

Marky · von **Marky** » Di 17. Apr 2012, 18:13

Hallo,

bin in Statistik eher Anfänger und wollt mal fragen ob mir wer bei diesem Beispiel helfen kann!

Also ich hab folgende Angabe:
Die folgende Tabelle stammt von einem Artikel des Nutritional Journal. Es wurde der Obst- und Gemüsekonsum von 163 Personen erhoben, einerseits mittels eines Fragebogens (FFQ Report), andererseits telefonisch (24-h-recall). Es wurde zwischen zwei Gruppen verglichen („intervention group“ gegen „controll group), wobei es für diese Aufgabe nicht wesentlich ist zu wissen, worin die Intervention genau bestand.

Bild

Und hier nun die 2 Fragen:

1.) Gib die Formel für das logistische Regressionsmodell für die erste Zeile (FFQ report) und die dritte Spalte der Tabelle (Crude OR). Was ist die abhängige, was die unabhängige Variable? Wie ist Crude OR zu interpretieren, wie das zugehörige Konfidenzintervall? Unterscheidet sich die „intervention group“ signifkant von der „control group“?

Also wo ich mir grundsätzlich immer schwer tu! Was ist die abhängige und die unabhängige Variable. In diesem Fall würde ich FFQ als unabhängig und Crude OR als abhängige Variable (Zielvariable) einstufen. Das logistische Regressionsmodell habe ich mir zwar unter http://de.wikipedia.org/wiki/Logistische_Regression angesehen! Verstehe aber leider nur Bahnhof. Interpretation von nicht adjustierte OR und CI: Das Chancenverhältnis. Also die Interventionsgruppe konsumiert 3 x soviel Obst. Wobei was ist der Unterschied zwischen nicht adjustiert und adjustiert? Konfidenzintervall: Streuung. Statstistisch signifikant oder nicht???

2.) Wie lautet das verwendete logistische Regressionsmodell in Zeile 3 (lunch) und Spalte 4 (Adjusted OR). Nimm der Einfachheit halber an, dass sämtliche kategorielle Variablen, für die Adjusted wurde, sich jeweils durch eine einzige Dummyvariable beschreiben lassen. Wie ist hier das Konfidenzintervall der adjusted OR zu interpretieren? Unterscheidet sich die „intervention group“ signifikant von der „control group“?

Wie lautet das verwendete logistische Regressionsmodell?? Hier steig ich überhaupt aus?

Ich gebs zu das sind viele Fragen, aber mit ein paar Anregungen wäre mir schon geholfen!

PonderStibbons · von **PonderStibbons** » Mi 18. Apr 2012, 15:51

In einer binären logistischen Regression ist die abhängige Variable eine
Dichotomie, ein ja/nein-Merkmal.

In vielen Studien werden Gruppen hinsichtlich des ja/nein-Merkmals miteinander
verglichen, wobei dann auch noch weitere Variablen (Kovariaten) statistisch
kontrolliert werden können. Diese Kontrolle passiert einfach durch den Einbau
in die mutltiple Vorhersagegleichung. Der Effekt von Gruppenzugehörgkeit wird
durch dieses vorgehen "adjustiert", also um den Effekt der Kovariaten bereinigt.

Was eine OR ist und wie man sie berechnet, und welchen Wert eine OR
annimmt, wenn z.B. Gruppenzugehörigkeit keinen Effekt hätte, lies bitte
nochmal nach. Vielleicht auch nicht nur bei wikipedia.

Mit freundlichen Grüßen

P.

Marky · von **Marky** » Do 19. Apr 2012, 19:10

Danke, hat mir schon mal weitergeholfen

Also ich habe mich jetzt auch noch ein bisschen schlau gemacht, diesmal nicht mit Wikipedia

1.) y=Pi(3)/1-Pi(3) -> Kann das so stimmen?
unabhängie Variable: fruits and vegetables intake by food frequency and 24 hour recall methods
abhängige Variable: FFQ report of five or more fruit & vegetable servings per day
CrudeOR: Bei der Interventionsgurppe 3 x größer als bei der Kontroll Gruppe!
Signifikant: ja/nein -> kann ich hier irgendwie nicht herauslesen. Weiß das wer?

2.) Modellname: Odds (Chancen)
95% KI: Schwankung 95 % der Werte zwischen 0,77 und 3,1
gnifikant: ja/nein -> kann ich hier irgendwie nicht herauslesen. Weiß das wer?

PonderStibbons · von **PonderStibbons** » Do 19. Apr 2012, 21:41

1.) y=Pi(3)/1-Pi(3) -> Kann das so stimmen?

Ich weiß leider nicht,was diese Gleichung aussagen oder darstellen soll.

unabhängie Variable: fruits and vegetables intake by food frequency and 24 hour recall methods

Die unabhängige Variable ist Gruppe, diese Variable hat 2 Ausprägungen.

abhängige Variable: FFQ report of five or more fruit & vegetable servings per day

Das wäre also die abhängige Variable in der ersten Analyse.

CrudeOR: Bei der Interventionsgurppe 3 x größer als bei der Kontroll Gruppe!

Die ODDS sind in der einen Gruppe 3mal so hoch wie in der anderen -- das VERHÄLTNIS
der odds der Gruppen zueinander ist eben die odds RATIO.

Signifikant: ja/nein -> kann ich hier irgendwie nicht herauslesen. Weiß das wer?

Das steckt im 95% Konfidenzintervall. Wenn dieses Intervall NICHT den Wert einschließt,
der bei Unwirksamkeit der Intervention sich ergäbe, dann kann man das Ergebnis
inferenzstatistisch signifikant auf dem 5% nennen.

Mit freundlichen Grüßen

P

Marky · von **Marky** » Fr 20. Apr 2012, 10:20

Wieder einmal vielen herzlichen Dank für die Antworten!!

1.) y=Pi(3)/1-Pi(3) -> Kann das so stimmen?
Ich weiß leider nicht,was diese Gleichung aussagen oder darstellen soll.

Also laut meinen Lernunterlagen gibt es 3 Ansätze für die logistische Regression:
1.) lineare Regression
∏(X) = β0 + β1 * ε
Nachteil: Werte < 0 und > 1 möglich!
Außerdem fehlt mir ja in dem Beispiel die konstante die ja für β0 eingesetzt werden müsste!

2.) Odds (Chancen) (für die hab ich mich auch entschieden)
y = ∏(x) / 1 - ∏(x) (Wahrscheinlichkeit / Gegenwahrscheinlichkeit)

3.) Logits = log-odds
log(y) = log(∏ / 1 - ∏)
Die verstehe ich überhaupt nicht weil ∏ ist ja eine Konstante, oder steht ∏ hier für was anderes?!

Signifikant: ja/nein -> kann ich hier irgendwie nicht herauslesen. Weiß das wer?

Das steckt im 95% Konfidenzintervall. Wenn dieses Intervall NICHT den Wert einschließt,
der bei Unwirksamkeit der Intervention sich ergäbe, dann kann man das Ergebnis
inferenzstatistisch signifikant auf dem 5% nennen.

Ok, verstehe, dann wäre ja in diesem Beispiel nichts signifikant, weil ja alle Werte in den jeweiligen KI95-Bereichen liegen!

LG

PonderStibbons · von **PonderStibbons** » Fr 20. Apr 2012, 11:21

Na gut, neuer Versuch.
Wenn die Gruppenzugehörigkeit keinen Effekt hätte (in der Grundgesamtheit)
dann würde die OR (in der Grundgesamtheit) einen ganz bestimmten Wert annehmen.

Natürlich weichen Stichprobendaten immer mehr oder weniger stark ab von
den Verhältnissen in der Grudngesamtheit. Daher die Signifikanztesterei. bzw.
die Verwendung der Konfidenzintervalle.

Liegt der im ersten Absatz angesprochene Wert innerhalb des errechneten
95%-Konfidenzintervalls, dann kann die Nullhypothese ("kein Effekt") nicht
zurückgewiesen werden. Liegt dieser besagte Wert dagegen außerhalb des
errechneten 95% Konfidenzintervalls, dann kann die Nullhypothese auf dem
5% Niveau verworfen werden.

Mit freundlichen Grüßen

P.

daniel · von **daniel** » Fr 20. Apr 2012, 14:07

Das ist hier alles etwas verirrend, beginnend bei der Notation und sich fortsetzend mit Deinem noch unvollständigen Verständnis der logistischen (und mölicher Weise ebenfalls der linearen) Regression. Hier nur einige wenige Kommentare. Als Literatur möchte ich Long (1997) empfehlen.

Also laut meinen Lernunterlagen gibt es 3 Ansätze für die logistische Regression:

Es gibt in der Tat verschiedene Motivationen der binär logistischen Regression. Long (1997) zeigt welche das v.a. sind.

1.) lineare Regression
∏(X) = β0 + β1 * ε
Nachteil: Werte < 0 und > 1 möglich!
Außerdem fehlt mir ja in dem Beispiel die konstante die ja für β0 eingesetzt werden müsste!

$\varepsilon$ ist normalerweise der Fehler. Der geht aber additiv, nicht multiplikativ ein. Multiplikativ mit den $\beta$ werden die Prädikatoren verbunden. Das ist dann ein lineares Wahrscheinlichkeitsmodell und hat wenig bis gar nichts mit dem binär logitischen Modell zu tun.

2.) Odds (Chancen) (für die hab ich mich auch entschieden)
y = ∏(x) / 1 - ∏(x) (Wahrscheinlichkeit / Gegenwahrscheinlichkeit)

Du schreibst es in Klammern, aber scheinst es nicht ganz verinnerlicht zu haben. Wenn die Formel für "Wahrscheinlichkeit / Gegenwahrscheinlichkeit" steht, für was steh dann wohl $\pi$ ? Sicher nicht für die Kreiszahl. Diese Notation ist in der Tat verwirrend, besser wäre die Bezeichnug P oder Pr. Zudem müsste es ausführlicher heißen P(Y = 1 | X)/1- P(Y = 1 | X).

3.) Logits = log-odds
log(y) = log(∏ / 1 - ∏)
Die verstehe ich überhaupt nicht [...]

Und das ist auch normal. Ich bezweifele, dass es (bis auf Stephen Hawking vielleicht) jemanden gibt, der wirklich eine klare Vorstellung der Bedeutung logarithmierter Chancenverhälnisse hat.

Anzumerken wäre noch, dass das Modell der binären Regression immer das selbe ist, da gibt es nichts zu entscheiden. Entscheiden kannst Du, welche Interpretationsmöglichkeiten der Ergebnisse Du bevorzugst, und da liegst Du mit Odds Ratios m.E. gut.

Long, Scott (Hg.) (1997). Regression Models for Categorical and Limited DependentVariables. S. 11-83. Thousand Oaks: Sage Publications.

Marky · von **Marky** » Mi 25. Apr 2012, 11:40

Vielen Dank nochmal für die vielen Inputs!

STATISTIK-FORUM.de

Regressionsmodell

Regressionsmodell

Re: Regressionsmodell

Re: Regressionsmodell

Re: Regressionsmodell

Re: Regressionsmodell

Re: Regressionsmodell

Re: Regressionsmodell

Re: Regressionsmodell

Wer ist online?