STATISTIK-FORUM.de

von **aziz** » Do 28. Mär 2013, 22:18

Hallo Klaus,

klaus82 hat geschrieben:Aber Du sagtest ja, daß das noch kein Grund für das Verwerfen eines Modells sei...aber hier resultiert doch logischerweise das gute Umweltverhalten eher zu geringer Luftverschmutzung , oder?

Nein. Hier wirken alle Kategorien des Merkmals Umwelbewusstsein auf höhere Kategorien des Merkmals Luftverschmutzung. Ansonsten liefert das Modell "gute Ergebnisse" bezüglich der Modellanpassung. Ebenfalls, dass die Varianz bzw. Standardfehler des Schätzers von Umweltbewusstsein=3 nun ungleich 0 ist, ist "erfreulich". Nichtsdestotrotz sind in deinem Datensatz bei der Luftverschmutzung die niedrigen Kategorien häufiger vertreten, sodass die Wahl des negativ log-log als Link besser sein könnte.

Gruß

folgende User möchten sich bei aziz bedanken:
klaus82

klaus82 · von **klaus82** » Do 28. Mär 2013, 23:06

aziz hat geschrieben:Hallo Klaus,

klaus82 hat geschrieben:Aber Du sagtest ja, daß das noch kein Grund für das Verwerfen eines Modells sei...aber hier resultiert doch logischerweise das gute Umweltverhalten eher zu geringer Luftverschmutzung , oder?

Nein. Hier wirken alle Kategorien des Merkmals Umwelbewusstsein auf höhere Kategorien des Merkmals Luftverschmutzung. Ansonsten liefert das Modell "gute Ergebnisse" bezüglich der Modellanpassung. Ebenfalls, dass die Varianz bzw. Standardfehler des Schätzers von Umweltbewusstsein=3 nun ungleich 0 ist, ist "erfreulich". Nichtsdestotrotz sind in deinem Datensatz bei der Luftverschmutzung die niedrigen Kategorien häufiger vertreten, sodass die Wahl des negativ log-log als Link besser sein könnte.

Gruß

Dickes Merci, Aziz, negativ-loglog hatte ich auch schon probiert. Höhere Kategorien sind die mit zunehmender Rangzahl, also bei Umweltverschmutzung 3 und 4 (nur um Mißverständnissen vorzubeugen)?

Aber die Kategorien des Merkmals Umweltbewusstsein wirken auch in einer Wahrscheinlichkeitsreihenfolge auf höhere Kategorien des Merkmals Luftverschmutzung ein, richtig? Je besser das Umweltbewusstsein, desto schlimmer die Luftverschmutzung.

Könnte man dann das Modell empirisch so interpretieren, daß Menschen mit einem ausgeprägteren Umweltverhalten wegen ihres besseren Umweltbewusstsein Luftverschmutzung erkennen und thematisieren können?

LG Klaus

von **aziz** » Fr 29. Mär 2013, 00:03

Hallo Klaus,

klaus82 hat geschrieben:Dickes Merci, Aziz, negativ-loglog hatte ich auch schon probiert. Höhere Kategorien sind die mit zunehmender Rangzahl, also bei Umweltverschmutzung 3 und 4 (nur um Mißverständnissen vorzubeugen)?

Höhere Kategorien der Luftverschmutzung haben höhere Rangzahlen.

klaus82 hat geschrieben:
Aber die Kategorien des Merkmals Umweltbewusstsein wirken auch in einer Wahrscheinlichkeitsreihenfolge auf höhere Kategorien des Merkmals Luftverschmutzung ein, richtig? Je besser das Umweltbewusstsein, desto schlimmer die Luftverschmutzung.

Dir sind z. B. die genauen Abstände zwischen den verschiedenen Kategorien bekannt? Ich persönlich würde von solch einer Interpretation abstand nehmen.

klaus82 hat geschrieben:
Könnte man dann das Modell empirisch so interpretieren, daß Menschen mit einem ausgeprägteren Umweltverhalten wegen ihres besseren Umweltbewusstsein Luftverschmutzung erkennen und thematisieren können?

Von einer Interpretation eines kausalen Zusammenhangs bzw. weiterführenden Interpretationen kann, möchte und vorallem muss ich Abstand nehmen. Ich muss mich an dieser Stelle wiederholen bzw. ergänzen: Mathematisch wirken hier sämtliche Kategorien der erklärenden Variable auf höhere Kategorien der abhängigen Variable.

Gruß
A.

folgende User möchten sich bei aziz bedanken:
klaus82

klaus82 · von **klaus82** » Fr 29. Mär 2013, 13:24

Danke, Aziz, Deine Erläuterungen sind jetzt ganz einleuchtend.
Ich möchte nochmal auf Brosius zurückkommen:

Er wählt als AV den Gerechtigkeitsanteil am Lebensstandart der BRD (1=weniger gerecht - 4= sehr gerecht). Als eine der erklärenden Variablen ist die Schulform gewählt (1=Hauptschule - 3=Gymnasium).

Nun sind die Schätzer der erklärenden Variable alle negativ, was ja bedeutet, daß sie allesamt auf niedrigere Kategorien der AV wirken. Realschule (2) hat den Schätzer -0,665 und Hauptschule (1) den Schätzer -0,801. Nun interpretiert er für einen niedrigeren Schulabschluß eine weniger gerechten Anteil am Lebensstandart.

Kann er das deswegen so interpretieren, weil er die Abstände zwischen den einzelenen Schulformen als einheitlich definiert? Das sind sie doch wohl streng mathematisch auch nicht, oder?
Ich kann es deswegen nicht, weil meine erkärende Variable (Umwelt) durch die Kategorie 4=Keine Ahnung nominal ist, richtig?

Mit anderen Worten: ich kann hier nicht interpretieren im Sinne von "JE MEHR, DESTO..."?

LG Klaus

von **aziz** » Fr 29. Mär 2013, 18:34

klaus82 hat geschrieben:
Kann er das deswegen so interpretieren, weil er die Abstände zwischen den einzelenen Schulformen als einheitlich definiert?

Leider ist diese Beispiel auf google books nicht einsehbar. Ich gehe aber davon aus, dass er die Abstände (gleichmäßig oder ungleichmäßig) zwischen den Schulformen als bekannt annimmt.

klaus82 hat geschrieben:Das sind sie doch wohl streng mathematisch auch nicht, oder?
Ich kann es deswegen nicht, weil meine erkärende Variable (Umwelt) durch die Kategorie 4=Keine Ahnung nominal ist, richtig?
Mit anderen Worten: ich kann hier nicht interpretieren im Sinne von "JE MEHR, DESTO..."?

Du kannst aber die bedingten Wahrscheinlichkeiten bestimmen, z. B. für ein Untersuchungseinheiten bei welcher ein Umweltbewusstsein von $u$ vorliegt, dass sie dort eine Luftverschmutzung von $l$ vorliegen hat. Im Spezialfall mit einer erklärenden Variable funktioniert das so:

Sei $\hat{\beta}_u$ der geschätzte Parameter der zu untersuchenden Kategorie von Umweltbewusstsein. Sei weiter $\hat{y}_l$ der Schätzer für den Parameter der Luftverschmutzungskategorie $l$ . Bestimmst du nun die Differenz $\hat{\beta}_u-\hat{y}_l$ , so erhälst du den Wert für deinen Link, angewandt auf die eigentliche Wahrscheinlicheit. Also: $\hat{\beta}_u-\hat{y}_l=Link(p)$ und $Link(\cdot)$ verwendeter Link und $p$ gesuchte Wahrscheinlichkeit. Mit ein bisschen Gleichungen umformen, sollte die Wahrscheinlichkeit leicht berechnet sein.

Gruß

folgende User möchten sich bei aziz bedanken:
klaus82

klaus82 · von **klaus82** » Fr 29. Mär 2013, 19:09

Danke, Aziz, kann man sich das nicht in einer erweiterten Kreuztabelle ausgeben lassen? Kann man das mit SPSS automatisch ausrechnen lassen?
Spielt es eigentlich eine Rolle, ob die Kategorien meiner erklärenden nominalen Variablen (test.docx) einheitlich geordnet sind? Umwelt und Smog haben ja einmal das kein als niedrigste, einmal als höchste kategorie.

Ich kann also bei dem Model sagen, daß beide erklärenden Variablen einen Einfluß ausüben. Weiterhin wirken Kategorien der Umwelt auf niedrigere Kategorien der AV und beim Smog wirkt die einzig signifikante Kategorie (2=stark) auf niedrigere Kategorien der Gesundheit (Beeinträchtigung-starke Beeinträchtigung)

LG Klaus

von **aziz** » Sa 30. Mär 2013, 00:47

klaus82 hat geschrieben:Danke, Aziz, kann man sich das nicht in einer erweiterten Kreuztabelle ausgeben lassen? Kann man das mit SPSS automatisch ausrechnen lassen?

In einer Kreuztabelle kannst du schauen, wie gut dein Modell die Kategorien der abhängigen Variable vorhersagt. Hierfür musst du in SPSS bei der Ausgabe der Ordinalen Regression die vorhergesagten Werte anfordern. Dann kannst du in einer Kreuztabelle die vorhergesagten gegen die beobachteten Werte abtragen. Auf der Diagonalen der Kreuztabelle sind die Anzahlen der einzelnen richtig vorhergesagten Kategorien. Du musst sie nur noch aufsummieren und kannst sie dann in Relation zu der Gesamtzahl an Beobachtungen setzen. Dann weißt du, wieviel in Prozent richtig vorhergesagt worden sind.

Mit der von mir beschriebene Methode kannst du die Wahrscheinlichkeit für das Auftreten einer beliebigen Kategorie der abhängigen Variable unter der Bedingungen, dass sich eine beliebige Kategorie der erklärenden Variable realisiert. Hier aber nur für den Spezialfall einer erklärenden Variable!

klaus82 hat geschrieben:Spielt es eigentlich eine Rolle, ob die Kategorien meiner erklärenden nominalen Variablen (test.docx) einheitlich geordnet sind? Umwelt und Smog haben ja einmal das kein als niedrigste, einmal als höchste kategorie.

Ja.Smog kannst du soll lassen. Umweltverhalten würde ich umgekehrt kodieren. Ebenso die Gesundheitliche Beeinträchtigung.

Gruß

folgende User möchten sich bei aziz bedanken:
klaus82

klaus82 · von **klaus82** » Sa 30. Mär 2013, 13:02

Moin Aziz! Vielen Dank. Im Anhang das neue Modell nach dem alten.
Irgendwie erscheint das jetzt unbrauchbarer, ich habe es auch mit log-log-komplementär versucht. Dann schnellt Nagelkerke auf 8 hoch, aber die Variable Smog erfüllt überhaupt keine Signifikanzen mehr und wäre als erklärende Variable auszuschließen. Ausserdem habe ich noch einen Versuch gemacht, indem ich nur

Ich verstehe wirklich nicht, warum ein umkodieren soviel ändert. Es geht doch um Wahrscheinlichkeiten in Kategorien zu landen. Werden die erklärenden Variablen vielleicht wegen der Kodierung fälschlicherweise als ordinal skalierte Variablen erkannt?

Welches ist denn jetzt das sauberste/brauchbarste Modell?

LG

von **aziz** » Sa 30. Mär 2013, 15:08

klaus82 hat geschrieben:Irgendwie erscheint das jetzt unbrauchbarer, ich habe es auch mit log-log-komplementär versucht. Dann schnellt Nagelkerke auf 8 hoch, aber die Variable Smog erfüllt überhaupt keine Signifikanzen mehr und wäre als erklärende Variable auszuschließen.

Wie kann das denn passieren? Die pseudo- $R^2$ können nur zwischen 0 und 1 liegen!

klaus82 hat geschrieben:Ausserdem habe ich noch einen Versuch gemacht, indem ich nur

Was hast du dort versucht?

klaus82 hat geschrieben:Ich verstehe wirklich nicht, warum ein umkodieren soviel ändert. Es geht doch um Wahrscheinlichkeiten in Kategorien zu landen. Werden die erklärenden Variablen vielleicht wegen der Kodierung fälschlicherweise als ordinal skalierte Variablen erkannt?

Wie du an den Outputs erkennen kannst ändern ein Umkodieren nicht viel an den zentralen Ergebnissen deines Modells. Ich hatte gedacht, dass dir hierdurch eine Interpretation der Modelle einfacher fallen könnte.

klaus82 hat geschrieben:Welches ist denn jetzt das sauberste/brauchbarste Modell?

Prinzipiell könntest du vor der Modellierung schauen, wie die wie die Kategorien deiner abhängigen Variable in ihren Häufigkeiten verteilt sind und hiervon abhängig den entsprechenden Link wählen. An dieser Stelle muss ich erwähnen, dass dies im allgemeinen keine sonderlich gute Methode ist. Es wäre besser die Wahl des Links, aus einer geeigneten Kontrollstichprobe abzuleiten.

Sprechen die Informationen zur Modellanpassung für das Modell, so ist das erstmal "gut" und diesbezüglich gibt es auch daran "nichts zu rütteln".

Weiterhin kannst du die Tendenzen der Wirkungsrichtung (bzgl. der Kategorien der abhängigen Variablen) der Kategorien der erklärenden Variablen untersuchen. Hierbei würde ich aber Abstand von einem Vergleich der Einflüsse erklärender Kategorien nehmen! Also z. B. würde ich keine Vergleiche der Art "Kategorie 1 wirkt stärker auf höhere Kategorien als es Kateorie 2 tut" durchführen.

Ebenso können die Kategorien auf eine Signifikanz untersucht werden.

Abschließend ist mir aufgefallen, dass sich die Daten in der Zusammenfassung der Fallverarbeitung in den 3 Modellen unterscheiden. Zum Beispiel: Liegen im ersten Modell 19 fehlende Fälle vor. In den anderen beiden sind es hingegen jeweils 12. Weiterhin liegen beispielsweise im ersten Modell 20 Fälle mit einer mittleren gesundheitlichen Beeiträchtigung und bei den beiden anderen Modellen 25 solcher Fälle vor.

Gruß

klaus82 · von **klaus82** » Sa 30. Mär 2013, 16:36

Vielen Dank, Aziz!

1. Sollte natürlich pseudo-R²= 0,8 sein!

2. Beim letzten Modell habe ich Smog an die Reihenfolge von Gesundheit (AV) und Umwelt angepasst!

3. Du hast Recht, Nagelkerkes ist beo allem Modellen immer über 0,4, was ja nicht so schlecht ist. Pearson-Xi² und Omnibus Xi² sind erfüllt.

4. Kann man ein Modell beibehalten, wenn für eine Kategorie ein Standartfehler bei Null liegt?

Prinzipiell könntest du vor der Modellierung schauen, wie die wie die Kategorien deiner abhängigen Variable in ihren Häufigkeiten verteilt sind und hiervon abhängig den entsprechenden Link wählen

Das wäre dann beispielsweise Kontingenztafel/Kreuztabelle mit Zeilenprozenten wie im Anhang? Ich bin mir nicht sicher, welche die relevanten links sind (gelb, rot?)

Es wäre besser die Wahl des Links, aus einer geeigneten Kontrollstichprobe abzuleiten.

Meinst Du damit eine Diskriminanzanalyse?

LG Klaus

STATISTIK-FORUM.de

Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Re: Interpretation PArameterschätzer

Wer ist online?