STATISTIK-FORUM.de

adfin · von **adfin** » Mi 10. Feb 2021, 00:17

Hey Leute,

ich möchte zu folgenden Hypothesen Regressionsanalysen durchführen:

Nullhypothese H0: Je häufiger Flüchtlinge auf ihrem Fluchtweg negativen Erfahrungen begegnen, desto geringer gestaltet sich die gesellschaftliche Integration.
Alternativhypothese H1: Je häufiger Flüchtlinge auf ihrem Fluchtweg negativen Erfahrungen begegnen, desto eher steigt die Motivation sich im Ankunftsland zu integrieren.

Hierfür habe ich die unabhängige Variable: Negative Geschehnisse auf der Flucht (Insgesamt 7). Die Einzelnen Geschehnisse hab ich zu Dummy Variablen verändert. 1 steht für= ja, ist mir passiert; 0 = nein, ist mir nicht passiert.

Als abhängige Variable dient einmal: Stellensuche in den letzten vier Wochen. Ebenfalls als Dummy Variablen. 1= Ja, habe aktiv nach einer Stelle gesucht; 0=Nein, habe nicht gesucht.

Hier habe ich eine binär logistische Regression via R durchgeführt und folgende Ergebnisse erlangt:

Code: Alles auswählen: Deviance Residuals: Min 1Q Median 3Q Max -0.9761 -0.7247 -0.7247 -0.5969 1.9667 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.20300 0.06541 -18.392 <2e-16 *** Betrug_Ausbeutung 0.13261 0.16456 0.806 0.4203 Sexuelle_Belaestigung -0.64374 0.46809 -1.375 0.1691 Koerperliche_Uebergriffe 0.03856 0.20002 0.193 0.8471 Schiffbruch -0.36793 0.21924 -1.678 0.0933 . Raubueberfall 0.03005 0.21369 0.141 0.8882 Erpressung 0.50785 0.19988 2.541 0.0111 * Gefaengnisaufenthalt -0.06372 0.18494 -0.345 0.7305 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1950.5 on 1776 degrees of freedom Residual deviance: 1937.1 on 1769 degrees of freedom (443 observations deleted due to missingness) AIC: 1953.1 Number of Fisher Scoring iterations: 4

Die zweite abhängige Variable lautet: Anzahl an Maßnahmen zur Sprachverbesserung. Hier gilt, an je mehr Maßnahmen teilgenommen wurde, desto engagierter ist die Person die Sprache zu erlernen. Daher ist diese Variable metrisch und ich habe eine logistische Regression durchgeführt mit folgenden Ergebnissen:

Code: Alles auswählen: Residuals: Min 1Q Median 3Q Max -2.5826 -0.8857 0.1143 1.0549 7.2166 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.885696 0.030118 62.611 < 2e-16 *** Betrug_Ausbeutung 0.187883 0.078458 2.395 0.01672 * Sexuelle_Belaestigung 0.159546 0.202521 0.788 0.43090 Koerperliche_Uebergriffe 0.059371 0.096217 0.617 0.53726 Schiffbruch -0.102326 0.096238 -1.063 0.28779 Raubueberfall -0.008705 0.103450 -0.084 0.93295 Erpressung 0.155163 0.100242 1.548 0.12180 Gefaengnisaufenthalt 0.246018 0.085401 2.881 0.00401 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.201 on 2130 degrees of freedom (82 observations deleted due to missingness) Multiple R-squared: 0.0173, Adjusted R-squared: 0.01407 F-statistic: 5.355 on 7 and 2130 DF, p-value: 4.288e-06

Nun ist das Problem, dass ich die Theorie zu allem gelesen habe, aber verstehe trotzdem null wie ich das auf meinen Fall anwenden soll. Wie sind denn die Ergebnisse bezüglich meiner Hypothesen zu interpretieren? und machen die Hypothesen überhaupt Sinn bezüglich der Ergebnisse und der kodierung. Oder sollte die H1 dann H0 einfach nur verneinen? Ebenfalls wollte ich eigentlich noch Kontrollvariablen hinzufügen, weiß leider nicht wie das bei R funktioniert. Selbst nach langer Recherche. Ich bin einfach nur verzweifelt. Über Hilfe würde ich mich extrem freuen.

LG

strukturmarionette · von **strukturmarionette** » Mi 10. Feb 2021, 04:25

Hi,

- in welchen Skalenniveaus liegen deine Rohmesswerte jeweils vor?
- N?

Gruß
S.

bele · von **bele** » Mi 10. Feb 2021, 12:56

adfin hat geschrieben:Hier habe ich eine binär logistische Regression via R durchgeführt und folgende Ergebnisse erlangt:

Code: Alles auswählen
... Null deviance: 1950.5 on 1776 degrees of freedom Residual deviance: 1937.1 on 1769 degrees of freedom

Unter Aufopferung von 17 Freiheitsgraden wurde die deviance um gerade mal 13 verringert. Das ist nicht viel. Damit kann man testen ( https://stats.stackexchange.com/a/141179/117812 ) :

[code]1 - pchisq(1950.5 - 1937.1, 1776 - 1769)

Und da kommt dann ein p-Wert dafür heraus, ob dieses Modell besser ist als ein Nullmodell, also einfach nur raten unter Berücksichtigen des Durchschnitts.
Damit ist nicht gezeigt, dass dieses Modell irgendwas kann. Entweder, all diese Dinge haben keinen Einfluss, oder (wahrscheinlicher) der Einfluss dieser Dinge ist vergleichsweise so klein, dass Du ihn mit >1700 Beobachtungen nicht nachweisen konntest.

Nun ist das Problem, dass ich die Theorie zu allem gelesen habe, aber verstehe trotzdem null wie ich das auf meinen Fall anwenden soll. Wie sind denn die Ergebnisse bezüglich meiner Hypothesen zu interpretieren? und machen die Hypothesen überhaupt Sinn

Allgemeine Antworten darauf, wie logistische Regression funktioniert und was man mit den Zahlen machen kann steht in Büchern, auf Webseiten und in Youtube-Videos. Das muss hier nicht nochmal aufgeschrieben werden. Spezialfälle besprechen wir gerne mit Dir, aber glaubst Du wirklich, dass man mit der bisherigen Schilderung von Studie und Vorgehen die Frage der Sinnhaftigkeit Deiner Hypothesen beurteilen kann?

LG,
Bernhard

adfin · von **adfin** » Do 18. Feb 2021, 13:28

Hallo Bernhard,

vielen Dank erstmal.

Nicht wirklich die Frage der Sinnhaftigkeit, eher die Frage der Validität. Ich bin mir sehr unsicher, ob ich das was ich messen will, wirklich messe. Und ja ich hatte gehofft, dass mir da auf Grundlage der Erläuterung meiner Kodierung, Hypothesen und Ergebnissen geholfen werden kann.

LG
Afin

adfin · von **adfin** » Do 18. Feb 2021, 13:30

Hallo S.,

genau die Daten sind ursprünglich all nominalskaliert.

LG
Afin

PonderStibbons · von **PonderStibbons** » Do 18. Feb 2021, 14:02

ich möchte zu folgenden Hypothesen Regressionsanalysen durchführen:
Nullhypothese H0: Je häufiger Flüchtlinge auf ihrem Fluchtweg negativen Erfahrungen begegnen, desto geringer gestaltet sich die gesellschaftliche Integration.

Das ist keine Nullhypothese.

Alternativhypothese H1: Je häufiger Flüchtlinge auf ihrem Fluchtweg negativen Erfahrungen begegnen, desto eher steigt die Motivation sich im Ankunftsland zu integrieren.

Das untersuchst Du nicht. Wo hast Du eine Motivationsmessung in Deiner Studie?
Alles was Du untersuchst, sind 7 Ereignisse während der Flucht und ihren statistischen
Zusammenhang mit etwas, das konzeptuell Lichtjahre davon entfernt liegt.

Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.20300 0.06541 -18.392 <2e-16 ***
Betrug_Ausbeutung 0.13261 0.16456 0.806 0.4203
Sexuelle_Belaestigung -0.64374 0.46809 -1.375 0.1691
Koerperliche_Uebergriffe 0.03856 0.20002 0.193 0.8471
Schiffbruch -0.36793 0.21924 -1.678 0.0933 .
Raubueberfall 0.03005 0.21369 0.141 0.8882
Erpressung 0.50785 0.19988 2.541 0.0111 *
Gefaengnisaufenthalt -0.06372 0.18494 -0.345 0.7305

Das sind Ergebnisse, die von Zufallsrauschen nicht zu unterscheiden sind,
dementsprechend werden einige Koeffizienten sogar negativ.

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.885696 0.030118 62.611 < 2e-16 ***
Betrug_Ausbeutung 0.187883 0.078458 2.395 0.01672 *
Sexuelle_Belaestigung 0.159546 0.202521 0.788 0.43090
Koerperliche_Uebergriffe 0.059371 0.096217 0.617 0.53726
Schiffbruch -0.102326 0.096238 -1.063 0.28779
Raubueberfall -0.008705 0.103450 -0.084 0.93295
Erpressung 0.155163 0.100242 1.548 0.12180
Gefaengnisaufenthalt 0.246018 0.085401 2.881 0.00401 **

Multiple R-squared: 0.0173, Adjusted R-squared: 0.01407

Das sind Ergebnisse, die von Zufallsrauschen nicht zu unterscheiden sind,
dementsprechend werden einige Koeffizienten sogar negativ.

Nun ist das Problem, dass ich die Theorie zu allem gelesen habe, aber verstehe trotzdem null wie ich das auf meinen Fall anwenden soll. Wie sind denn die Ergebnisse bezüglich meiner Hypothesen zu interpretieren?

Dass man in diesen Daten keinen Zusammenhang zwischen den 7 Ereignissen
und den beiden abhängigen Variablen erkennen kann.

Ebenfalls wollte ich eigentlich noch Kontrollvariablen hinzufügen, weiß leider nicht wie das bei R funktioniert.

Das allerdings wundert mich. Die sind doch auch einfach nur weitere Prädiktoren im Modell.

Mit freundlichen Grüßen

PonderStibbons

bele · von **bele** » Do 18. Feb 2021, 14:21

Hi!

Ich frag mich immer noch, was jetzt die aktuelle Frage ist. Im Eingangspost stand

Wie sind denn die Ergebnisse bezüglich meiner Hypothesen zu interpretieren?

Und daraufhin habe ich Dir gezeigt, wie man für die Überlegenheit Deines logistischen Modells gegenüber dem Nullmodell auf einen p-Wert größer als 0,05 kommt. Bist Du nicht weiter drauf eingegangen.

Dann steht da

und machen die Hypothesen überhaupt Sinn

und aber auch

Nicht wirklich die Frage der Sinnhaftigkeit

Aha. Nächster Frageaufruf:

eher die Frage der Validität

Dazu finde ich

Eine Untersuchung ist valide, wenn wirklich das gemessen wurde, was gemessen werden sollte bzw. wenn die erhobenen Daten auch tatsächlich die Fragen beschreiben, die erforscht werden sollten

und

Validität bezeichnet in der Empirie die inhaltliche Übereinstimmung einer empirischen Messung mit einem logischen Messkonzept. Allgemein ist dies der Grad an Genauigkeit, mit der dasjenige Merkmal tatsächlich gemessen wird, das gemessen werden soll.

Sehr weites Thema, vor allem wenn man nicht genau weiß, worauf sich die Validität exakt beziehen soll, weil das im Satz nicht dazugesagt wird.

genau die Daten sind ursprünglich all nominalskaliert.

Wahrscheinlich mit Ausnahme der zweiten abhängigen Variablen "Anzahl der Maßnahmen zur Sprachverbesserung". Jene über die Du schreibst:

Die zweite abhängige Variable lautet: Anzahl an Maßnahmen zur Sprachverbesserung. Hier gilt, an je mehr Maßnahmen teilgenommen wurde, desto engagierter ist die Person die Sprache zu erlernen. Daher ist diese Variable metrisch und ich habe eine logistische Regression durchgeführt mit folgenden Ergebnissen

Dahinter hast Du einen Teil des Outputs von R angefügt, der so gar nicht nach logistischer Regression, sondern nach OLS-Regression aussieht. Hat das was mit Deinem Validitätsbegriff zu tun, dass Du logistische Regression schreibst, wenn es eine OLS-Regression ist? Sagen wir so, die Beschreibung des Modells stand bestimmt im R Output aber die hast Du jeweils nicht mit ins Forum kopiert.

Also ich mach jetzt noch den einen Versuch, und dann bin ich aus diesem Thread hier erstmal raus:

1. Das erste Modell mit der Stellensuche in den letzten vier Wochen wird knapp nicht signifikant. Beweisen konntest Du damit also nichts. Es zeichnet sich eine Tendenz ab, dass Menschen die Erpressung erlebt haben etwas häufiger als in den letzten vier Wochen eine Stelle gesucht haben.
2. Das zweite Modell ist sehr wahrscheinlich keine logistische Regression und man sollte sich überlegen, ob es vielleicht eine Binomial- oder Poissonregression hätte sein sollen. Es wird hoch signifikant, aber von der Varianz in der Anzahl der Maßnahmen zur Sprachverbesserung erklärt es nur 1,7%. Es belegt, dass es einen positiven Zusammenhang zwischen früheren Gefängnisaufenthalten und Betrug_Ausbildung einerseits und der Anzahl der Maßnahmen zur Sprachverbesserung andererseits gibt. Das eine hebt die Anzahl der Sprachfördermaßnahmen um fast ein Viertel, das andere um ein Fünftel bis ein Sechstel.

Gruß und ab,
Bernhard

STATISTIK-FORUM.de

Interpretation von Ergebnissen Regressionsanalyse

Interpretation von Ergebnissen Regressionsanalyse

Re: Interpretation von Ergebnissen Regressionsanalyse

Re: Interpretation von Ergebnissen Regressionsanalyse

Re: Interpretation von Ergebnissen Regressionsanalyse

Re: Interpretation von Ergebnissen Regressionsanalyse

Re: Interpretation von Ergebnissen Regressionsanalyse

Re: Interpretation von Ergebnissen Regressionsanalyse

Wer ist online?